电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示
电子发烧友网>电子资料下载>电子论文>数字信号处理论文>一种改进的句子相似度计算模型

一种改进的句子相似度计算模型

2008-11-20 | rar | 333 | 次下载 | 2积分

资料介绍

在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形。实验结果表明,改进方法比原方法具有较高的准确率。
关 键 词 自然语言处理; 基于实例的机器翻译; 句子相似度; 基于词

基于实例的机器翻译(Example Based Machine Translation,EBMT)是以双语对齐的实例库为主要知识源,输入一个待翻译的源语言句子,从实例库中查找与输入句最相似的例句,再模仿例句的译文来实现输入句的翻译。在EBMT中,实例匹配是关键,直接关系到系统本身的翻译质量。实现实例匹配的有效机制是进行句子相似度计算[1-2],目前主要有基于词[3-5]和基于句法语义分析[6-7]的两类方法。两类方法各有优缺点,基于词的方法简单、流行,但由于仅利用句子的表层信息,即组成句子的有关词汇的词法和语义信息,因此,在判断句子整体结构相似方面有欠缺;基于句法语义分析的方法折衷考虑句子的组成词汇语义信息与整体框架结构信息,但在折衷考虑的层次上较难把握。本文研究基于词的句子相似度计算问题,并在文献[5]的基础上提出了一种改进的方法。
1 基于词的句子相似度计算
基于词的方法是目前最简单、最流行的方法,依据词的形态变化、同义词、反义词以及更进一步的语义距离来判断孤立词之间的相似度,再通过这种词间相似度的不同组合来确定句子间的相似度。文献[3]利用同义词表计算两句词之间的语义距离,进而计算两句之间的相似度。文献[4]通过正反双向比较两句相同词的个数及其位置关系,得到一个转换表达式和子块库,再通过系统预定义的翻译模式和限制条件实现两句相似度的计算。文献[5]通过比较两句相同词的个数及其位置关系,得到两句的词形相似度和词序相似度,再通过词形相似度和词序相似度计算两句的相似度。
文献[4-5]采用的方法实质上是相同的,均通过比较相同词的个数及其位置关系来计算两句的相似度。但在相似度的定义中,仅考虑了形态上相同的词,而没有考虑同义词的情形。例如,对两个简单的句子“我/ 是/ 老师/ 。/”与“他/ 为/ 学生/。/”,按照文献[5]中的方法计算则相似度很低(只有0.1),实际上这两句是比较相似的。究其原因,主要是没有考虑两句中的同义词“是”和“为”。另外,也没有考虑任何句法结构信息。因此,在算法实现上虽然较为简单,但准确率却不高。基于词的方法依据句子的表层信息,通过对这些表层信息的加工也可以获得一些有用的句法结构信息,如抽取一些能够近似表达部分句法结构信息的关键性的词(以下简称关键词)。在此基础上进行句子相似度计算,就会具有较高的准确率。本文针对以上两点作了进一步的改进。
2 一种改进的方法
本文对文献[5]中的句子相似模型作了进一步改进,包括关键词抽取,以及在句子相似度的定义中考虑同义词的情形。令inp为待翻译的输入句,exa为对应的m个例句中的一个,先分别抽取inp和exa中所有的名词、代词、动词或形容词,并组成相应的关键词序列,再求出inp和exa中关键词序列的相似度,最后选取大于规定阈值的最大相似度例句作为输入句的最相似例句。
2.1 关键词抽取
由语言学知识可知,任何句子都是由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的。关键成分对句子起主要作用,修饰成分对句子起次要作用。进行句子相似度计算时,只要考虑句中的关键成分。基于词的方法不考虑句法结构分析,因此,不能确定句子的内部成分,包括关键成分和修饰成分。在通常情况下,一个句子中作主语和宾语的多为名词或代词,作谓语的多为动词或形容词。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词,并在计算句子相似度时只考虑这些关键词。例如,句子“我/ 当然/ 愿意/ 了解/ 她们/ 的/ 要求/ 。/”的关键词序列为 “我/ 愿意/ 了解/ 她们/ 要求/ 。/”。对于特定句中的某个名词、代词、动词或形容词,不一定就是该句中的主语、宾语或谓语成分,但相对于句中所有的词构成的词序列而言,关键词序列却具有一定的句法结构信息表达能力,至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算,比一般基于词的方法准确一些。

下载该资料的人也在下载 下载该资料的人还在阅读
更多 >

评论

查看更多

下载排行

本周

  1. 1DC电源插座图纸
  2. 0.67 MB   |  2次下载  |  免费
  3. 2AN158 GD32VW553 Wi-Fi开发指南
  4. 1.51MB   |  2次下载  |  免费
  5. 3AN148 GD32VW553射频硬件开发指南
  6. 2.07MB   |  1次下载  |  免费
  7. 4AN111-LTC3219用户指南
  8. 84.32KB   |  次下载  |  免费
  9. 5AN153-用于电源系统管理的Linduino
  10. 1.38MB   |  次下载  |  免费
  11. 6AN-283: Σ-Δ型ADC和DAC[中文版]
  12. 677.86KB   |  次下载  |  免费
  13. 7SM2018E 支持可控硅调光线性恒流控制芯片
  14. 402.24 KB  |  次下载  |  免费
  15. 8AN-1308: 电流检测放大器共模阶跃响应
  16. 545.42KB   |  次下载  |  免费

本月

  1. 1ADI高性能电源管理解决方案
  2. 2.43 MB   |  450次下载  |  免费
  3. 2免费开源CC3D飞控资料(电路图&PCB源文件、BOM、
  4. 5.67 MB   |  138次下载  |  1 积分
  5. 3基于STM32单片机智能手环心率计步器体温显示设计
  6. 0.10 MB   |  130次下载  |  免费
  7. 4使用单片机实现七人表决器的程序和仿真资料免费下载
  8. 2.96 MB   |  44次下载  |  免费
  9. 53314A函数发生器维修手册
  10. 16.30 MB   |  31次下载  |  免费
  11. 6美的电磁炉维修手册大全
  12. 1.56 MB   |  24次下载  |  5 积分
  13. 7如何正确测试电源的纹波
  14. 0.36 MB   |  17次下载  |  免费
  15. 8感应笔电路图
  16. 0.06 MB   |  10次下载  |  免费

总榜

  1. 1matlab软件下载入口
  2. 未知  |  935121次下载  |  10 积分
  3. 2开源硬件-PMP21529.1-4 开关降压/升压双向直流/直流转换器 PCB layout 设计
  4. 1.48MB  |  420062次下载  |  10 积分
  5. 3Altium DXP2002下载入口
  6. 未知  |  233088次下载  |  10 积分
  7. 4电路仿真软件multisim 10.0免费下载
  8. 340992  |  191367次下载  |  10 积分
  9. 5十天学会AVR单片机与C语言视频教程 下载
  10. 158M  |  183335次下载  |  10 积分
  11. 6labview8.5下载
  12. 未知  |  81581次下载  |  10 积分
  13. 7Keil工具MDK-Arm免费下载
  14. 0.02 MB  |  73810次下载  |  10 积分
  15. 8LabVIEW 8.6下载
  16. 未知  |  65988次下载  |  10 积分