网络质量事件热点发现方法之一——共词分析法
发布时间:2014-03-17     字号: [小] [中] [大]

    在计算机出现以前,科学研究成果主要以纸质方式存储,想要了解一门学科的研究热点、发展趋势,只需要对这些纸质文献进行数量和主题统计即可。但是随着文献数量的不断增加和学科的不断细化,利用纯手工操作的方式统计学科的研究热点已经难以为继。为了解决这一问题,必须找到一种新的方法,该方法不仅能够借助计算机批量处理,而且能够准确反映出文献的研究内容,共词分析法随之诞生。共词分析法是一种基于内容的分析方法,通过统计一组词两两在同一篇文献中出现的次数,反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化,发现学科的研究热点。共词分析法的原理是:利用文献集合中的词汇对确定该文献集所代表学科中各主题之间的关系,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密,通过统计一组文献的主题词两两在同一篇文献中出现的频率,便可形成一个由这些词对组成的共词网络,网络内节点之间的远近便可反映主题内容的亲疏关系。
    主题词汇是共词分析法的基础,在使用共词分析法之前需要确定主题词汇。主题词通常与一个学科的发展密切相关,在学科萌芽阶段,一批新的主题词汇逐渐出现,随着学科的不断发展,主题词的使用频率越来越高,因此利用词频统计的方式可以找出主题词汇。在文献计量领域,由于统计的对象是期刊文献,每篇期刊文献都有若干个关键词,而关键词是对整篇文献主题的反映,因此在具体的研究过程中,研究者往往会以文献的关键词作为主题词进行共词分析,发现学科的研究热点。以2013年最新发表的一篇文献为例,作者以2000-2011年CSSCI中情报学的来源文献为数据样本,首先利用词频统计的方法统计所有文献的关键词,降序排列后截取频次大于等于50的关键词作为主题词汇,利用共词分析法构建主题词汇的共词矩阵,将矩阵图谱化,共词频率越高的词汇对之间的连线越粗,图谱可以清晰地反映出近十年情报学的研究主题,词汇对共词频率越高,说明越有可能成为该学科领域的研究主题。
    通过对共词分析法的作用、原理以及确定主题词汇方法的阐述,了解到共词分析法是用来发现文献集合中的研究热点的,主题词汇主要从文献的关键词中获取。将共词分析法的分析对象和分析元素进行抽象,可以将其运用到网络质量事件的热点发现中。网络质量事件在形成事件之前,也经历了萌芽阶段、发展阶段、成熟阶段和衰退阶段,在事件演化的整个阶段中,网民会针对质量事件中的某些行业进行广泛的讨论,或者对行业中具体产品的质量问题进行意见的交流,这些重点讨论交流的话题就是事件的热点。在交流和讨论的过程中,通常会有一类词汇被网民经常使用,这类词汇形成了关于质量事件的主题词汇集合,同时所有交流和讨论的信息形成了信息集合。信息集合对应于文献集合,质量事件的主题词汇对应于文献中的关键词,如果首先利用词频统计的方法统计出网页质量信息中的高频词汇,筛选出主题词汇,然后利用共词分析法计算出两两词汇的共词频率,应该也能发现网页质量信息中网民讨论的热点。
    虽然共词分析法完全可以移植到网络质量事件中,发现质量事件中网民讨论的热点,但是在使用共词分析法之前,也应当发现该方法在应用到基于文献的信息热点发现和基于网络的信息热点发现之间的差别。基于文献的信息热点发现中使用的主题词汇是文献的关键词,关键词一般是由作者提炼,作者非常熟悉自己的论文,因此仅用几个关键词就能够反映到文献的核心主题,并且通常一个学科的关键词会被后来研究者学习,后来研究者在发表类似论文时也会遵循学科的规范,不会随意使用其它关键词,因此一个学科的关键词往往会非常集中。与基于文献的信息热点发现不同,基于网络的信息热点发现中使用的主题词汇是网络词汇,网民在发表言论时不会提取出关键词,即使网民提取出关键词,也会因为不同地区、不同文化、不同民族的差异性,导致关键词非常分散,没有形成一定的规范。为此,在使用共词分析法分析网络质量信息时,需要首先提取出主题词汇。具体的思路是,可以首先利用词频统计的方法提取出高频词汇,然后构建同义词或者近义词列表,利用同义词表将意思相同但表达不同的词汇归到一类,同义词的词频累积到一起,降低高频词汇的数量,提取出该网络质量事件的主题词汇,最后利用共词分析法找到质量事件中的热点话题。

 

凡本网编辑上传的文章内容(注明转载文章除外),均为武汉大学质量发展战略研究院合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:武汉大学质量发展战略研究院”。违反上述声明者,本网将追究其相关法律责任。

如需转发本网文章,因作品内容、版权和其它问题需要同我们联系的,请在相关作品刊发之日起30日内进行。

关闭
网站访问总量: 3629827