电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示
电子发烧友网>电子资料下载>电子论文>数字信号处理论文>一种改进的句子相似度计算模型

一种改进的句子相似度计算模型

2008-11-20 | rar | 333 | 次下载 | 免费

资料介绍

在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形。实验结果表明,改进方法比原方法具有较高的准确率。
关 键 词 自然语言处理; 基于实例的机器翻译; 句子相似度; 基于词

基于实例的机器翻译(Example Based Machine Translation,EBMT)是以双语对齐的实例库为主要知识源,输入一个待翻译的源语言句子,从实例库中查找与输入句最相似的例句,再模仿例句的译文来实现输入句的翻译。在EBMT中,实例匹配是关键,直接关系到系统本身的翻译质量。实现实例匹配的有效机制是进行句子相似度计算[1-2],目前主要有基于词[3-5]和基于句法语义分析[6-7]的两类方法。两类方法各有优缺点,基于词的方法简单、流行,但由于仅利用句子的表层信息,即组成句子的有关词汇的词法和语义信息,因此,在判断句子整体结构相似方面有欠缺;基于句法语义分析的方法折衷考虑句子的组成词汇语义信息与整体框架结构信息,但在折衷考虑的层次上较难把握。本文研究基于词的句子相似度计算问题,并在文献[5]的基础上提出了一种改进的方法。
1 基于词的句子相似度计算
基于词的方法是目前最简单、最流行的方法,依据词的形态变化、同义词、反义词以及更进一步的语义距离来判断孤立词之间的相似度,再通过这种词间相似度的不同组合来确定句子间的相似度。文献[3]利用同义词表计算两句词之间的语义距离,进而计算两句之间的相似度。文献[4]通过正反双向比较两句相同词的个数及其位置关系,得到一个转换表达式和子块库,再通过系统预定义的翻译模式和限制条件实现两句相似度的计算。文献[5]通过比较两句相同词的个数及其位置关系,得到两句的词形相似度和词序相似度,再通过词形相似度和词序相似度计算两句的相似度。
文献[4-5]采用的方法实质上是相同的,均通过比较相同词的个数及其位置关系来计算两句的相似度。但在相似度的定义中,仅考虑了形态上相同的词,而没有考虑同义词的情形。例如,对两个简单的句子“我/ 是/ 老师/ 。/”与“他/ 为/ 学生/。/”,按照文献[5]中的方法计算则相似度很低(只有0.1),实际上这两句是比较相似的。究其原因,主要是没有考虑两句中的同义词“是”和“为”。另外,也没有考虑任何句法结构信息。因此,在算法实现上虽然较为简单,但准确率却不高。基于词的方法依据句子的表层信息,通过对这些表层信息的加工也可以获得一些有用的句法结构信息,如抽取一些能够近似表达部分句法结构信息的关键性的词(以下简称关键词)。在此基础上进行句子相似度计算,就会具有较高的准确率。本文针对以上两点作了进一步的改进。
2 一种改进的方法
本文对文献[5]中的句子相似模型作了进一步改进,包括关键词抽取,以及在句子相似度的定义中考虑同义词的情形。令inp为待翻译的输入句,exa为对应的m个例句中的一个,先分别抽取inp和exa中所有的名词、代词、动词或形容词,并组成相应的关键词序列,再求出inp和exa中关键词序列的相似度,最后选取大于规定阈值的最大相似度例句作为输入句的最相似例句。
2.1 关键词抽取
由语言学知识可知,任何句子都是由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的。关键成分对句子起主要作用,修饰成分对句子起次要作用。进行句子相似度计算时,只要考虑句中的关键成分。基于词的方法不考虑句法结构分析,因此,不能确定句子的内部成分,包括关键成分和修饰成分。在通常情况下,一个句子中作主语和宾语的多为名词或代词,作谓语的多为动词或形容词。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词,并在计算句子相似度时只考虑这些关键词。例如,句子“我/ 当然/ 愿意/ 了解/ 她们/ 的/ 要求/ 。/”的关键词序列为 “我/ 愿意/ 了解/ 她们/ 要求/ 。/”。对于特定句中的某个名词、代词、动词或形容词,不一定就是该句中的主语、宾语或谓语成分,但相对于句中所有的词构成的词序列而言,关键词序列却具有一定的句法结构信息表达能力,至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算,比一般基于词的方法准确一些。

下载该资料的人也在下载 下载该资料的人还在阅读
更多 >

评论

查看更多

下载排行

本周

  1. 1电子电路原理第七版PDF电子教材免费下载
  2. 0.00 MB  |  1490次下载  |  免费
  3. 2单片机典型实例介绍
  4. 18.19 MB  |  93次下载  |  1 积分
  5. 3S7-200PLC编程实例详细资料
  6. 1.17 MB  |  27次下载  |  1 积分
  7. 4笔记本电脑主板的元件识别和讲解说明
  8. 4.28 MB  |  18次下载  |  4 积分
  9. 5开关电源原理及各功能电路详解
  10. 0.38 MB  |  11次下载  |  免费
  11. 6100W短波放大电路图
  12. 0.05 MB  |  4次下载  |  3 积分
  13. 7基于AT89C2051/4051单片机编程器的实验
  14. 0.11 MB  |  4次下载  |  免费
  15. 8基于单片机的红外风扇遥控
  16. 0.23 MB  |  3次下载  |  免费

本月

  1. 1OrCAD10.5下载OrCAD10.5中文版软件
  2. 0.00 MB  |  234313次下载  |  免费
  3. 2PADS 9.0 2009最新版 -下载
  4. 0.00 MB  |  66304次下载  |  免费
  5. 3protel99下载protel99软件下载(中文版)
  6. 0.00 MB  |  51209次下载  |  免费
  7. 4LabView 8.0 专业版下载 (3CD完整版)
  8. 0.00 MB  |  51043次下载  |  免费
  9. 5555集成电路应用800例(新编版)
  10. 0.00 MB  |  33562次下载  |  免费
  11. 6接口电路图大全
  12. 未知  |  30320次下载  |  免费
  13. 7Multisim 10下载Multisim 10 中文版
  14. 0.00 MB  |  28588次下载  |  免费
  15. 8开关电源设计实例指南
  16. 未知  |  21539次下载  |  免费

总榜

  1. 1matlab软件下载入口
  2. 未知  |  935053次下载  |  免费
  3. 2protel99se软件下载(可英文版转中文版)
  4. 78.1 MB  |  537791次下载  |  免费
  5. 3MATLAB 7.1 下载 (含软件介绍)
  6. 未知  |  420026次下载  |  免费
  7. 4OrCAD10.5下载OrCAD10.5中文版软件
  8. 0.00 MB  |  234313次下载  |  免费
  9. 5Altium DXP2002下载入口
  10. 未知  |  233046次下载  |  免费
  11. 6电路仿真软件multisim 10.0免费下载
  12. 340992  |  191183次下载  |  免费
  13. 7十天学会AVR单片机与C语言视频教程 下载
  14. 158M  |  183277次下载  |  免费
  15. 8proe5.0野火版下载(中文版免费下载)
  16. 未知  |  138039次下载  |  免费