我国网民的数量每年都在增长,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%。每天都会有无数的网民遨游在网上,除了浏览信息,网民喜欢将自己感兴趣的话题、信息分享给认识的人。通过转发、共享功能,网民与网民之间建立起联系,网络上一个个虚拟社区建立起来,网民在不同社区扮演着不同的角色。从网民的角度来看,网民之间通过共同的兴趣、爱好产生了联系。从网页的角度来看,网民之间的联系实质上是网页之间的超链接。一个超链接将两个网页联系起来,无数个超链接将整个网页联系起来,形成互联网。超链接是有向链接,即存在链接的网页和被链接的网页,因此有入链和出链的区别。入链数是其它网页链接本网页的数量,出链数是本网页链接其它网页的数量。利用入链数和出链数可以判断出一个网页的重要程度。当一个网页的入链数远远大于出链数,说明这张网页更加受到其它网页的关注,这个网页非常重要。相反,当一个网页的入链数远远小于出链数,说明这张网页更加关注其它网页,这个网页不太重要。Google搜索引擎的核心算法就是以链接分析为基础的,通过分析网页的入链数和出链数,分析网页的重要程度,生成搜索排名结果。
网络链接分析法可以用于网络信息资源评价。网络信息资源评价指对网络信息内容和网页两部分进行评价。1995年,Woodruff对260万个网站内链接与站外链接进行分析,筛选出被链接频率最高的网站,研究表明,链接最高的网站往往也是网络信息资源价值最高,影响力最大的网站。1998年,Google搜索引擎创始人SergeyBrin和Larry Page利用pagerank对网页赋予权重,进而确定网页的影响力。Pagerank算法就也是以链接分析为基础的,该算法一直沿用到现在。1999年,Faloutsos等人发现了Web拓扑结构中的幂定律分布现象。随后Broder等人对Web图的连通性进行了研究,提出了“蝴蝶结”状的Web连通域结构图,并指出这些连通域同样服从幂数定律分布。也就是说,少部分网页是整个互联网联系起来的核心。Kleinberg等研究发现,Web页面可分为两种类型,即中心页面和权威页面。权威页面是指人们公认的在某一主题上内容权威的页面。中心页面是指页面上有很多指向权威页面链接的页面。中心页面与权威页面因此形成一个相互加强的关系。好的中心页面指向许多好的权威页面,而好的权威页面被许多好的中心页面所指。以上研究者利用网络链接分析法得出了非常重要的结论,归纳起来有两条:第一,网页与网页之间的重要性是有区别的。网页的重要性用入链数量和出链数量来衡量。第二,核心网页数量在所有网页中所占的比例服从幂律分布。也就是说,核心网页只占整个网页中的一小部分。
产品质量安全信息遍布整个网络,似乎没有规律可循。信息源太多,很难实现覆盖整网的监测。实则不然,以上学者的研究可以推出,产品质量监测的信息源同样集中在一小部分入链数非常多的网页。只要利用网络链接分析法统计出权重比较高的网页,监测这部分网页就可以大致掌握整个产品的质量信息。具体而言,首先可以利用搜索引擎和关键词找到质量相关的网页,然后利用网络链接分析法统计这类质量网页的入链数和出链数,计算出质量网页的权重,最后对这些网页进行排序,截取排名先前的网页进行质量监测。