资料介绍
在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形。实验结果表明,改进方法比原方法具有较高的准确率。
关 键 词 自然语言处理; 基于实例的机器翻译; 句子相似度; 基于词
基于实例的机器翻译(Example Based Machine Translation,EBMT)是以双语对齐的实例库为主要知识源,输入一个待翻译的源语言句子,从实例库中查找与输入句最相似的例句,再模仿例句的译文来实现输入句的翻译。在EBMT中,实例匹配是关键,直接关系到系统本身的翻译质量。实现实例匹配的有效机制是进行句子相似度计算[1-2],目前主要有基于词[3-5]和基于句法语义分析[6-7]的两类方法。两类方法各有优缺点,基于词的方法简单、流行,但由于仅利用句子的表层信息,即组成句子的有关词汇的词法和语义信息,因此,在判断句子整体结构相似方面有欠缺;基于句法语义分析的方法折衷考虑句子的组成词汇语义信息与整体框架结构信息,但在折衷考虑的层次上较难把握。本文研究基于词的句子相似度计算问题,并在文献[5]的基础上提出了一种改进的方法。
1 基于词的句子相似度计算
基于词的方法是目前最简单、最流行的方法,依据词的形态变化、同义词、反义词以及更进一步的语义距离来判断孤立词之间的相似度,再通过这种词间相似度的不同组合来确定句子间的相似度。文献[3]利用同义词表计算两句词之间的语义距离,进而计算两句之间的相似度。文献[4]通过正反双向比较两句相同词的个数及其位置关系,得到一个转换表达式和子块库,再通过系统预定义的翻译模式和限制条件实现两句相似度的计算。文献[5]通过比较两句相同词的个数及其位置关系,得到两句的词形相似度和词序相似度,再通过词形相似度和词序相似度计算两句的相似度。
文献[4-5]采用的方法实质上是相同的,均通过比较相同词的个数及其位置关系来计算两句的相似度。但在相似度的定义中,仅考虑了形态上相同的词,而没有考虑同义词的情形。例如,对两个简单的句子“我/ 是/ 老师/ 。/”与“他/ 为/ 学生/。/”,按照文献[5]中的方法计算则相似度很低(只有0.1),实际上这两句是比较相似的。究其原因,主要是没有考虑两句中的同义词“是”和“为”。另外,也没有考虑任何句法结构信息。因此,在算法实现上虽然较为简单,但准确率却不高。基于词的方法依据句子的表层信息,通过对这些表层信息的加工也可以获得一些有用的句法结构信息,如抽取一些能够近似表达部分句法结构信息的关键性的词(以下简称关键词)。在此基础上进行句子相似度计算,就会具有较高的准确率。本文针对以上两点作了进一步的改进。
2 一种改进的方法
本文对文献[5]中的句子相似模型作了进一步改进,包括关键词抽取,以及在句子相似度的定义中考虑同义词的情形。令inp为待翻译的输入句,exa为对应的m个例句中的一个,先分别抽取inp和exa中所有的名词、代词、动词或形容词,并组成相应的关键词序列,再求出inp和exa中关键词序列的相似度,最后选取大于规定阈值的最大相似度例句作为输入句的最相似例句。
2.1 关键词抽取
由语言学知识可知,任何句子都是由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的。关键成分对句子起主要作用,修饰成分对句子起次要作用。进行句子相似度计算时,只要考虑句中的关键成分。基于词的方法不考虑句法结构分析,因此,不能确定句子的内部成分,包括关键成分和修饰成分。在通常情况下,一个句子中作主语和宾语的多为名词或代词,作谓语的多为动词或形容词。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词,并在计算句子相似度时只考虑这些关键词。例如,句子“我/ 当然/ 愿意/ 了解/ 她们/ 的/ 要求/ 。/”的关键词序列为 “我/ 愿意/ 了解/ 她们/ 要求/ 。/”。对于特定句中的某个名词、代词、动词或形容词,不一定就是该句中的主语、宾语或谓语成分,但相对于句中所有的词构成的词序列而言,关键词序列却具有一定的句法结构信息表达能力,至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算,比一般基于词的方法准确一些。
- 基于概率分布函数的流程工厂模型拓扑相似度计算 5次下载
- 基于卷积神经网络的相似度计算模型 19次下载
- 基于时空分析的交通路口相似度计算方法 5次下载
- 基于LSTM神经网络的评论句子依赖联系分析 1次下载
- 融合内容与多特征计算的个性化微博推荐模型 6次下载
- 针对协同过滤推荐算法的相似度计算方法 6次下载
- 一种改进的残差网络结构以减少卷积层参数 8次下载
- 一种用于释义识别的句子相似度算法 8次下载
- 基于图集成模型的自动摘要生产方法 10次下载
- 基于双向长短期记忆循环神经网络的句子切分模型 14次下载
- 一种改进的聚类联合相似度推荐算法 10次下载
- 基于分层组合模式的句子组合模型 0次下载
- 一中余弦相似度的改进方法 0次下载
- 一种基于本体的概念相似度计算及其应用_冉婕 0次下载
- 一种改进状态模型的动态相量测量算法_肖雄波 0次下载
- 异步电机的改进型电压模型磁链观测器介绍 616次阅读
- 智能开源大模型baichuan-7B技术改进 711次阅读
- flowflops:OneFlow模型的Flops计算 821次阅读
- 一种新型的双流注意力增强型BERT来提高捕捉句子对中细微差异的能力 1103次阅读
- 如何通过多模态对比学习增强句子特征学习 988次阅读
- FLAT的一种改进方案 1189次阅读
- 如何实现三维模型对比?比较3d模型相似度软件浩辰3D软件入门教程 8873次阅读
- 脑机接口最新研究能将神经信号直接映射为句子 2792次阅读
- 人工智能是一种改进数据控制和处理的方法 2860次阅读
- XLNet和Bert比,有什么不同?要进行改进吗? 4874次阅读
- 用于学习图结构对象相似性的图匹配网络 5463次阅读
- 【新专利介绍】一种改进电表 1133次阅读
- 计算文本相似度几种最常用的方法,并比较它们之间的性能 5.2w次阅读
- 深度学习模型介绍,Attention机制和其它改进 1.8w次阅读
- 云计算的三种服务模式和四种部署模型 2880次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 93次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 11次下载 | 免费
- 6100W短波放大电路图
- 0.05 MB | 4次下载 | 3 积分
- 7基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多