【学术动态】《语义分析及自然语言交流》
发布时间:2014-04-02     字号: [小] [中] [大]

武汉大学质量发展战略研究院
学术动态
2014年第4期(总第157期)

武汉大学质量发展战略研究院编     2014年4月2日

 

    2014年3月31日上午8:30,珞珈质量双周学术论坛在我院多功能学术报告厅举行。本期论坛邀请李明教授主讲,题目为:《潜搜索:从语义距离到信息距离》。现将本次论坛的主要内容整理如下:
    千百年来我们习惯了使用双手来工作,随着信息技术的发展,能否找到释放双手的方法。语音识别技术为此而诞生。语音识别是建立在语义识别之上。然而什么是语义?什么是语义距离?这些问题几十年来一直困扰着许多学者和专家。
    加拿大皇家学院院士,滑铁卢大学生物信息学家李明教授,以“潜搜索”为主题,举办了一次学术讲座,带来了“信息距离”这个重要概念和方法。人们使用百度、谷歌等搜索,习惯使用关键词来搜索。查找什么东西,输入几个关键词,而不是一句连续的话,不是咱们平常使用的自然语言,这会出一个什么问题呢?打个比方,你在百度上输入加拿大有多少人,与输入加拿大住了多少人,前者直接显示加拿大人口数量,后者则显示完全不想关。原本一个一摸一样意思的句子,却处理成不同的结果。
    为什么会是这种结果,原因就是有些语义对人来说容易理解,对计算机来说却不可定义(比如邱奇图灵论题),不可计算的(比如Godel定理)。其原因在于中国语言博大精深,有些话“你懂的”,计算机却不懂。怎么让计算机处理这类问题呢?解决的办法就是将语义距离近似的表示为信息距离。信息距离是衡量两个含有信息的实体之间距离的普适度量,在1998年被Bennett等人提出。在欧几里得空间我们可以将北京到武汉的距离定义为1180.3公里。在信息空间里,我们如何定义两个信息载体A和B之间的信息距离呢。使用传统方法无法计算信息距离,但信息之间的转化计算需要能量。
    冯诺依曼—朗道定律指出,每(不可逆地)处理1比特的信息需要1KT的能量(其中K是玻尔兹曼常量,T是温度单位),而可逆计算不需要能量。两个实体之间的信息距离可以被理解为将两个对象相互转化所需要的能量或信息含量。信息距离从本质上并不依赖描述语言的选取,对于两个和通用图灵机的描述能力等价的语言,任何一对字符串在这两个语言上的信息距离只相差一个和字符串本身无关的常数。

   

    语义距离不可定义也不可计算,信息距离可以定义却不可计算。在实际应用中,我们需要用不同方法来近似它。信息距离近似计算的方法就是压缩。基于压缩的信息距离在生物信息学和数据挖掘中得到了广泛应用。在数据挖掘领域,Keogh等人将基于压缩的信息距离于数据挖掘领域主流会议中提出的51种度量进行比较,发现信息距离的效果是最优的。

(整理人:许伟)

凡本网编辑上传的文章内容(注明转载文章除外),均为武汉大学质量发展战略研究院合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在概仅范围内使用,并主明“来源:武大学质量发展战略研究院“。违反上述声明者,本网将追究其相关法律责任。

如需转发本网文章,因作品内容、版权和其它问题需要同我们联系的,请在相关作品刊发之日起30日内进行。

关闭
网站访问总量: 3304415