质量大数据:信息真实性的挑战
发布时间:2017-03-15     字号: [小] [中] [大]

    我们说质量大数据的核心来源主体天然就是消费者。政府主体由于数量的单一,很难达到大数据所要求的“4V”特征;企业主体不存在来源数量单一的问题,但是会由于自身追求利益的动机,常常也只会选择性的提供正面信息。对于消费者主体从理论上来讲,只要消费者去购买、去使用,只要跟商品发生互动,就会不由自主地对商品产生评价,而这个评价在很大程度上就是质量的评价。比如,我们喝一口矿泉水,觉得还可以,那么这个“还可以”就是质量的评价;再比如我们去买手机,苹果、三星、华为不同品牌相似价格的拿到手上一滑,最后什么话都不说默默地选择了华为,这也是质量的评价,我们用切实的行动告诉他人:我认为华为比其他两者都好。因此,缺的从来都不是消费者的质量评价数据,缺的只是让这些评价数据展现出来的渠道与平台。以前小数据时代没有这样的渠道与平台,让这些天然的质量评价数据都默默地烂在了我们的心里,而现在大数据时代就有了,可以让我们消费者更加自由、更加畅快地表达出心里的质量评价。
    质量大数据的核心组成部分是来自消费者的质量信息评价。这一基本判断还存在一个严峻的现实挑战,那就是数据真实性的挑战。我们知道现在互联网上网络水军、刷单等已经成为一种灰色的产业,如果大量的消费者质量评价信息都是“刷”出来的,信息都不真实,何来谈质量大数据?这是个必须要解答的问题。
    在这点上,我有着比较深刻的体会。我手头在研的一个省部级项目,研究目标是要通过搜集消费者在新浪微博上发布的食品安全负面信息,来分析食品安全状况在不同地区、不同人群、不同时节,其风险如何传播与演化的。这应该是个很有意思的选题。最初我提出这个选题时,遭到很多人的质疑:新浪微博上的信息可靠吗?如果基础数据都不可靠,那你如何做让人信服的研究呢?
    对于这个问题,我是这样认识和解决的。的确,现阶段要绝对保证所有信息的真实性,难度很大,但是我们可以尽量消缓信息的不真实程度。可以有技术手段和制度的手段。比如说,在微博盛行的时候,流行一句口号:“有图有真相!”那么我可以设定一个信息筛选的条件:发微博并同时带图片的,数据真实可能性更高,我们可以给其真实性赋值85%;同样地,对对象描述得更加具体、表达情感更加强烈的信息,我们也认为真实可能性会更高,也给其赋一定的概率值等等。这些是从技术的手段来解决,更为有效的应该是从制度方面来杜绝。比如国家后来出台一项政策,虚假信息传播500次以上者蹲监狱。那我们就可以认为,微博大V发布的食品安全风险信息100%是真实的!因为我们的逻辑认为没有人愿意为这样一条小的信息而去冒这么大的法律和名誉风险。当然在微博网络中,我们对“大V”的判定不仅仅是看他的图像旁是否有个金灿灿的“V”,而是分析其在整体网络节点中的权重和活跃度,通过衡量其可能承担的法律制度风险来判断其发布信息的真实性。总体而言,通过这样的一些技术和制度的处理手段,其实可以规避掉绝大多数的不真实信息,基于这些信息足够我们去做出准确的分析和研究了。
    更进一步地,我们还可以放眼一下未来,看看质量大数据未来的前景如何。这其中关键在于清晰的判断出一个简单的逻辑问题:未来互联网上消费者信息是会更加的真实,还是会更加的不真实。其实这个答案是显然易见的。因此,对于质量大数据信息真实性的挑战,我的回答是:现在可以通过技术性和制度性手段为我所用,未来应用的前景也将更加广阔,那我们还有什么可顾忌的呢?

凡本网编辑上传的文章内容(注明转载文章除外),均为武汉大学质量发展战略研究院合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:武汉大学质量发展战略研究院”。违反上述声明者,本网将追究其相关法律责任。

如需转发本网文章,因作品内容、版权和其它问题需要同我们联系的,请在相关作品刊发之日起30日内进行。

关闭
网站访问总量: 3303775