如何讲好数据的故事
发布时间:2017-05-15     字号: [小] [中] [大]

    最近一个多月都在密集地参与中国企业-劳动力报告的数据清洗,在与数据打交道的过程中,对于如何用数字讲好一个经济学的故事有了新的理解。在此与大家一起分享。

    首先,数据需要仔细而深入地清洗。社会经济调查由于各种主客观的原因,不可避免地会导致数据的误差,而对误差的识别和修正是我们科学地认识数据,并进而更加地接近数据的事实必不可少的一步。主在原因在于:样本的极大值或极小值对于平均值将产生显著的影响,从而直接影响对于结果的判断。例如,在工资数据的清理中,有一个员工的月工资超过了20万,这个数据在制造业企业中应该是非常罕见的,如果不对其进行处理,将会使得10000名员工的平均工资增长20元,这将会是一个非常大的效应。因而,我们就有理由去怀疑,这个数据是还是录入有误,或者调查有误。当然,如果能够逐一地排除这些可能性,仍然要保留这个数据。此外,任何需要进行年度对比的数据,必须要保证样本的数量,以及指标的计算方法是一致的,样本年度间的剧烈波动,需要更多地对于样本差异性的检查。

    其次,需要看数据的分布。我们进行数据的描述性统计时,运用最为广泛的是平均值,他代表了某一个类型的对象,平均主体的状况。但是这有一个很大问题,就是每个类型的对象,我们都能够正好找到有代表性的样本,然而,随着分类的增加,如我们考虑不同受教育水平下,不同年龄段的工资,分成了十几个子样本,这对于样本数量的要求就更高了。一个子样本只有几百个,甚至于几十个,是没有太大分析价值的。因而,描述样本时,需要对样本数量分布进行深入分析。如果样本量太小,则很容易导致样本有偏。对于这一类问题,应尽量减少分类,如可将受教育程度从7个组分成2个组等。另外,还要看数据本身的离散情况。由于工资的不平等,是一个非常普遍的现象,仅仅看平均值,很容易给出假象,我们应该更加关注数据的中位数。例如,一个样本的平均值处在70%的分位上,也就是平均值要高出中位值20个百分点,更为直观地说,就是有70%的样本“被平均”了。

    再次,数据要比较才有意义。任何一个单独的数字都是没有任何含义的,我们之所以会对一个数据有感觉,就是因为我们拿它和我们非常熟悉的一个数字进行校准。因而,做数据的同时,我们必须找一个对比的基线指标。如我们看员工的工资,就要看民营企业和国有企业是否有差别。我们看补贴,就要看国有企业是否比民营企业更容易拿补贴,同时产出绩效是否比民营企业更差等等。我们看企业的质量损失,不能仅仅看质量损失率是多少,我们还要看质量的损失占到了利润的多少。我们看工资增长,就是要看不同学历的工资增长率比较,到底是高人力资本的增长快还是低人力资本的增长快。

    最后,数据要有现实故事感。我们分析数据,最为根本的目的是要能够对现实世界有新的发现。数据的多维统计,有千万种组合,但我们并不可能穷尽这些组合,我们需要根据现实中最为重要而同时没有得到检验的现象进行数据的统计。例如,我们看工资,最重要的一个问题是,劳动力的工资到底上涨了多少,不同类型的劳动力工资上涨是否有差异。我们有三种结果,一是大幅高于预期;二是大幅低于预期;三是基本符合预期。只有前两种结果,才是有故事感的数据结果,如果一个统计数据仅仅是验证了人们常识,那么,这个数据就没有故事感可言了。因而,做数据分析并不是孤立地看数据本身,而需要对现实经济的故事有深入的了解。


凡本网编辑上传的文章内容(注明转载文章除外),均为武汉大学质量发展战略研究院合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:武汉大学质量发展战略研究院”。违反上述声明者,本网将追究其相关法律责任。

如需转发本网文章,因作品内容、版权和其它问题需要同我们联系的,请在相关作品刊发之日起30日内进行。

关闭
网站访问总量: 3307974