最近看到一篇发表在《PLOS》上的一篇文章,题目是运用维基百科的大数据预测电影票房。电影票房是对电影这类产品及其相关服务质量的最直接的反映,同时大数据最有价值也是最吸引人的特点就是它的预测性。其实之前已经有不少研究者运用大数据对电影票房进行预测,比如运用导演、知名演员的数据进行相关性分析,计算出哪些导演、演员的组合能够形成好的票房成绩,或者运用电影第一周的票房成绩进行回归分析,对后期的票房描绘一条预测曲线,等等,这些数据看上去就与电影本身的质量息息相关,而维基百科是一个词典,数据量是够大,但运用维基百科的数据来作电影的预测,有点难以想象。
原来,维基百科里面有许多电影的介绍文章,比如电影的内容、演员、主题曲、获奖情况等,并且这些信息是由多位编辑增加的,有的信息甚至进行了反复修改,每一次的内容增加、修改、删除都有历史记录。作者从中选取了4个指标:电影文章的评论数量,为电影文章作出贡献的作者数量,电影文章的编辑次数以及对电影文章进行编辑的严谨性。这些指标数据固然可以在维基百科上获取到,但是运用这些数据进行电影票房的预测存在几点质疑的地方。
最基本的问题在于一位消费者在电影院看完电影与他到维基百科上填写电影相关信息之间的相关关系是非常弱的。试想一下,哪位消费者在看完电影之后会想着得赶紧把相关信息上传到维基百科。
进一步,从维基百科的历史编辑中可以看到,有些作者因为上传的信息不准确而被扣分,只有那些经过认真考察后的正确信息才能在上传时通过审查,而这些信息不可能只通过看一遍电影就能记住,比如演员的基本情况介绍,这类信息需要查阅资料。除非这位消费者非常希望与他人分享这部电影,否则很难想象他会在短时间内花费一定时间查找这些资料并整理好。
有些信息在电影上映一周内无法上传,比如说获奖信息,可能需要等待1年以上,才能有结果,这类无法马上上传的信息至少会影响编辑数量这个指标。
还有一点比较关键的是,很多消费者不会选择到电影院看电影,而是选择从互联网上下载电影观看,这种情况也会延后信息上传的时间和编辑数量等指标。
作者还在预测模型中增加了电影在第一周上映的电影院的数量,从理论上说,比起以上4个指标,这个指标与票房的相关性程度更高,运用这5个指标构建预测模型,发挥重要作用的指标会被忽视,因此在作预测之前有必要对5个指标作单因素分析。
预测对时效性要求极高,维基百科对时效性不敏感,所以我认为维基百科的数据不太适合做电影票房的预测,利用维基百科的数据作电影质量满意的分析更加合适,因为消费者对电影质量满意,意味着至少电影中的某些情节打劫了消费者,消费者有感而发,希望更多人了解该电影,所以情愿花时间整理上传电影信息,而关键的一点是,对电影质量满意的分析对时效性不敏感,这一点与维基百科信息的更新特点一致。