【学术动态】大数据与质量治理
发布时间:2014-12-10     字号: [小] [中] [大]

武汉大学质量发展战略研究院
学术动态
2014年第27期(总第180期)

武汉大学质量发展战略研究院编     2014年12月10日

 

    2014年12月8日上午8点半,质量院双周学术论坛邀请到上海华东师范大学大数据创新中心理事长、清华大学华商研究中心高级顾问、乔治华盛顿大学统计学院兼职教授胡善庆,武汉大学计算机学院教授、武汉大学珞珈特聘学者姬东鸿,武汉大学新闻与传播学院副教授王琼,武汉大学经济与管理学院黄敏学教授以及湖北日报记者刘真等从统计学、舆情分析、市场营销、数据新闻等不同的视角为大家带来了有关大数据与质量治理领域的最新研究进展。
    在简短地介绍了自己的个人经历之后,胡善庆教授首先为大家带来了题为“大数据与质量治理”的报告。胡善庆教授首先介绍了自己在美国联邦政府普查局所做的雇主-雇员匹配数据调查。该调查起步于2000年,遵循一个动态工作框架,调查的数据主要来源于联邦政府内部已有的失业保险、社保、税务报表、行政记录、普查、随机抽样调查等方面,该调查追踪了美国全国1亿5000万劳动人口和近1000万雇主,且能够实现每三个月更新一次。目前,这个项目的成果已经成功应用到美国应急地图中,能够实现对美国的自然灾害(包括飓风、水灾、火灾、暴风雪等)的全自动化实时报告。据胡善庆教授介绍,中国国内也有类似的雇主-雇员匹配调查,该调查2011年获得了“985工程”专项资金支持,并于2014年3月公告了第三次试点调查的执行情况,目前已对中国全国10个城市,共350家雇主,3654名雇员进行了调查。但是,该调查采取的是抽样问卷调查的形式。
    据胡善庆教授介绍,1880年美国花了7年的时间进行普查,到1895年左右,计算机抬头,统计愈发专业化,而且出现了抽样的统计思想,经历了大约四十年的争论,数理统计才成型,抽样的思想才被公众所接受。于是,各大学纷纷成立数理统计学科,同时也出现了全国性的抽样调查,随着计算机商业化的进一步发展,时间序列分析蒙特卡洛模拟、重抽样技术、最大期望算法(EM)、探索性数据分析(EDA)等相继出现。到如今,随着计算机技术的进一步发展吗,“大数据”这个词越来越受到人们的重视,使统计学从样本又回到了总体的概念,抽样调查回归到全面调查,大数据开拓了统计学2.0。他认为,在大数据时代,无论在美国还是中国,20世纪的统计方法无法解决21世纪的治理要求。各国政府也越来越多地要求更快速、更精细、和更可靠的统计数据来帮助治理。美国联邦政府普查局的举措就是一个显著的例子。
    他也指出,大数据时代虽然带来了无穷无尽的创新机会,但它不是石油金沙,需要把握、设计、实验和应用,配合人和现代科技,区分有用和无用大数据,才能科学地帮助建立现代智慧城市和小康社会,达到现代的治理标准。
    目前,中国有四大基础数据库,分别为人口基础数据库、法人单位数据库、资源和空间地理信息数据库、宏观经济信息数据库,但到目前为止,四大基础数据库在政府内部并没有实现互通共享。在胡善庆教授看来,中国当下面临的数据问题突出体现在数据质量、数据分享、以及数据文化三个方面。此外,中国智慧城市的建设需要顶层设计,统一收集数据,整合数据,打造一站式服务品台。
    随后,武汉大学计算机学院的姬东鸿教授为大家展示了武汉大学自主研发的舆情监测系统的数据来源、现阶段成果等一些基本情况。该舆情监测系统主要通过20多台云端服务器实时动态收集互联网上的数据信息,并在此基础上,利用语义分析、信息分类聚合等技术对数据进行深入挖掘,最后以平台进行可视化展示。目前该系统有企业版、行业版等多种版本。姬东鸿研究团队还跟新浪微博进行了合作,将过去一年新浪微博上的大学生数据进行了分析,包括发微博时间和地点分布、大学生情感分析、发微博设备分析、大学生画像等,引起了与会老师和同学们的极大兴趣。据介绍,研究团队还将在明年据此发布大学生微博使用分析报告。
    紧接着,武汉大学新闻与传播学院的王琼副教授从数据新闻的角度为大家介绍了大数据对新闻媒体的影响。王琼首先从数据新闻的定义入手,随后根据她自己在美国USA TODAY以及英国BBC考察的经历介绍了数据新闻在西方发展的现状,并对比分析了国内搜狐新闻、网易数读、新浪图解天下、财新数字说等数字新闻频道,认为,相对于国外的数字新闻,目前中国的数字新闻的分析还比较浅,大多处在数字的图表化展示层面。最后,王琼还向质量院表达了合作开发“中国质量地图”的意愿。
    最后,质量院刘志亮详细展示了深度网质量大数据平台,包括深度网的基础架构、数据来源以及产品平台(包括深度预警和质监雷达等)。
    在最后讨论环节,武汉大学经济与管理学院的黄敏学教授阐述了他对大数据时代一些问题的思考。他提出,大数据时代的相关分析并不意味着可以准确找到问题出现的原因,也无法有效找到问题的解决途径,而这些正是企业所真正关心的问题,目前有很多企业都在倡导利用大数据,但真正实施利用大数据的却并不多,大数据时代的因果分析是一个大难题。近年来,他尝试考虑从复杂网络分析、社会网络分析等角度来突破该难题,但都不尽如人意。他认为,大数据应该与小数据相结合,例如在市场营销领域,在利用大数据的同时应该利用心理学、社会学方面的数据和知识。对此,胡善庆教授也认为,大数据只是个工具,不可能替代人工分析。
    此外,程虹教授还就美国数据公开以及被学者利用的情况等问题向胡善庆教授进行了提问。胡善庆教授回答说目前美国政府内部可是实现数据的共享,但并不是所有的部门都可以利用这些数据,如雇主-雇员匹配数据,司法部门是不能利用的,美国学者如果想利用这些数据进行相关的研究也可以向普查局申请,但申请到的数据都是经过相关处理的,研究人员也要严格遵守保密原则。和美国相比,中国的数据共享与公开还有很大的差距。

(整理人:胡德状)

凡本网编辑上传的文章内容(注明转载文章除外),均为武汉大学质量发展战略研究院合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在概仅范围内使用,并主明“来源:武大学质量发展战略研究院“。违反上述声明者,本网将追究其相关法律责任。

如需转发本网文章,因作品内容、版权和其它问题需要同我们联系的,请在相关作品刊发之日起30日内进行。

关闭
网站访问总量: 3630545