0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LLM作用下的成分句法分析基础研究

深度学习自然语言处理 来源:深度学习自然语言处理 2023-11-10 10:47 次阅读

作者:cola

自训练已被证明是一种有效的针对跨域任务的方法。传统的自训练方法依赖于有限且低质量的源语料库。为克服这一限制,本文提出用大型语言模型(LLM)增强自训练,以迭代地生成特定领域的语料库。并针对句法成分解析,引入了指导LLM生成源语料库的语法规则,建立了选择伪实例的标准。

背景介绍

成分解析作为NLP中的一项基本任务,已经在领内基准上取得了显著的进展,这表明解析器在捕获底层语法结构方面的能力日益增强。然而,开放域句法成分解析具仍具有挑战。在不同的开放域中,成分解析面临的复杂性超出了定义明确的任务。解决这些挑战对于其现实世界的NLP应用至关重要。

为了解决域偏移问题,基于自训练的无监督域适应已经成为一种有效的方法。例如在每次迭代过程中利用源域模型自动标注来自目标域的大规模源语料,然后选择置信度高的伪数据作为额外的训练数据,以提高目标域性能。然而,在低资源领域,源语料库的质量和数量往往无法保证,这限制了自训练方法的使用。而LLM具有强大的生成能力,可以作为解决目标域源语料库数量和质量挑战的潜在解决方案。

c5a4c958-7ef0-11ee-939d-92fbcf53809c.png

在生成句子时解决LLM的灵活性和幻觉问题面临挑战,我们采用语法规则作为LLM生成目标域句子的指令。语法规则与句法成分解析密切相关。

方法

采用伯克利神经解析器(Berkeley Neural Parser)作为方法的基础。该解析器是一种基于图表的方法,采用自注意力编码器和图表解码器,利用预训练的嵌入作为输入来增强解析过程。由于融合了预训练语言模型,伯克利神经解析器天生具有跨域句法分析能力。这使得解析器可以在源域上进行训练,可直接应用于目标域。

自训练

自训练的主要目标是为目标域生成高质量的训练实例,然后使用这些实例训练目标域模型。具体来说,在基础方法的每次迭代中,都进行了三个主要步骤:

训练解析器:使用源域成分树训练伯克利神经解析器。

解析源语料库:用训练好的模型来解析来自目标域的源文本,生成解析树,作为下一步的候选伪树。

伪数据选择:选择高置信度的伪树作为额外的训练实例,然后用于增强模型在目标域上的性能。

通过迭代地重复这些步骤,自训练方法使解析器适应目标域,利用源注释树生成高质量的伪树。

LLM增强自训练

如图2所示,动态嵌入LLM作为迭代自训练过程中的一个关键组件。在每次迭代中,我们基于上一步更新的树,利用LLM为目标域生成源语料库。语法规则(GRs)从树中提取,对指导目标域源语料的LLMs生成起着至关重要的作用。

c5cb1dce-7ef0-11ee-939d-92fbcf53809c.png

在每次迭代中,LLM增强的自训练句法成分解析可划分为6个详细步骤:

LLM生成:利用LLM为目标域生成一个源语料库。

解析训练:用源树库和目标域选择的伪树来训练成分解析器。初始化时,伪树为空,解析器仅在源域数据上进行训练。

域解析:我们用训练过的解析器来解析生成的源语料库,产生一组候选解析树。

树的选择:从生成的解析树中,选择一个高质量解析树的子集来组成伪树库。

更新树库:通过添加选定的伪树库来更新源树库。

GRs抽取:从更新的树库中抽取语法规则。

LLM增强的自训练过程不断迭代,直到收敛。

实例选择

本文提出了一种基于语法规则的伪数据选择准则。与之前仅关注任务的自训练选择标准不同,该标准同时考虑了任务和LLM 生成语料库的特征,确保所选择的伪数据适用于使用自训练的跨域解析。

给定源集和候选实例(候选集),与之间的距离为:c5e74116-7ef0-11ee-939d-92fbcf53809c.png然后,在自训练过程中选择最接近源域集的前个候选集作为额外的训练实例。c5ff0b34-7ef0-11ee-939d-92fbcf53809c.png距离计算可以在token级进行,也可以在语法规则级进行,通过调整集合来分别表示token分布和语法规则分布。实例选择过程包含三个层次的标准:token、置信度和语法规则。并结合两个表现最好的标准,即基于置信度的选择和基于语法规则的选择,从而产生了一个更有效的标准,用于识别高质量实例以适应目标领域。

LLM提示

为了生成包含全面结构信息并与目标域句子风格密切相似的句子,本文提出了一个融合语法规则和目标域示例的LLM提示。在生成过程中,我们需要准备以下参数:1)从树库中提取的条语法规则,2)从目标领域中采样的个句子,3)生成句子的长度约束。

通过从树库句子长度的分布中采样来确定的值,并从中提取语法规则。注意,语法规则是直接从成分树中提取的,其中父节点对应于语法规则的左侧,所有子节点对应于右侧尾部。例如,如果树库是源域数据PTB,我们为平均长度引入高斯分布,记为,以获得条语法规则。

我们抽取了5个目标域句子。由于生成的句子的长度与语法规则数量密切相关,因此使用另一种正态分布来采样两个值和,这两个值定义了生成句子的长度限制。图3给出了一个具体的例子:

c61be6a0-7ef0-11ee-939d-92fbcf53809c.png

实验

数据:PTB-源数据,MCTB-目标数据。

主要结果

为方便起见,主要的对比实验采用bert-base-uncased进行,仅在bert-large-uncased上进行比较。表1报告了句法成分解析器在五个目标域上的性能。

c633633e-7ef0-11ee-939d-92fbcf53809c.png

分析

实例选择策略

首先研究了每次迭代的四种不同的选择策略:基于Token的、基于Conf的、基于GRs的和基于GRsConf的。图4中的折线图分为两个部分,说明了基本的和LLM增强的自训练成分解析在迭代期间的解析器性能。从图中可知,对于基础的方法,除GRsConf外,所有策略的性能都呈现出先上升后下降的趋势。这种趋势表明,经过几次迭代后,候选数据的特征偏差越来越大,越来越不适合域迁移。在评论领域,使用GRsConf选择的伪数据进行自训练取得了最好的性能。

c65b7c02-7ef0-11ee-939d-92fbcf53809c.png

相比之下,LLM增强的自训练对所有选择策略都表现出一致的上升趋势,这表明所选择的数据是高质量的,适应过程是渐进的。这一结果突出了将LLM纳入自训练迭代过程的可行性和有效性,实现了从源域到目标域的更细粒度的迁移。

来自GRsConf的伪数据

在基于LLM增强自训练的跨域句法成分解析中,性能提升的关键在于所选择的伪数据是否逐渐向目标域靠拢。LLM生成过程和选择策略从两个相反的方向指导迭代:LLM生成的原始文本逐步向目标域偏移,而选择标准旨在确保伪数据保持接近源域。因此,我们分析了评论域的最佳选择策略GRsConf,并考察了每次迭代中所选择的伪数据的分布。同时,使用GRs的JS散度来测量所选伪数据与源域和目标域之间的距离。如图5所示,所选伪数据与源域的距离逐渐增大,而与目标域的距离逐渐减小。趋势表明,域迁移在第一次迭代中是最小的,在第二次和第三次迭代中发生了更多的适应,并最终在第四次迭代中稳定下来。这种距离的演化趋势表明领域迁移过程是渐进的,印证了GRsConf选择策略结合LLM增强自训练的跨域句法解析方法的有效性。

c67257c4-7ef0-11ee-939d-92fbcf53809c.png

目标句的影响

采用基于GRsConf的伪数据选择方法在评论领域进行了对比实验。如表2所示,可以得出结论,句子的数量不会显著影响最终的目标域解析器。

c804df3a-7ef0-11ee-939d-92fbcf53809c.png

GRs的影响

此外,我们用5个目标域句子建立了LLM生成过程,省去了语法规则的引入。从表3所示的实验结果可以看出,在没有语法规则的情况下,解析器的性能要低于标准的LLM增强的自训练方法。这表明,用语法规则约束LLM的生成是一个合理的选择。

c81d2e32-7ef0-11ee-939d-92fbcf53809c.png

总结

提出了一种用于句法成分解析中的跨域自适应的增强自训练方法。通过利用LLM的生成并将其整合到自训练过程中,该方法大大提高了跨域的成分解析性能。并有效地将高置信度选择标准与基于语法规则的选择相结合,逐步使训练数据更接近目标域。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    434

    浏览量

    10044
  • 语法
    +关注

    关注

    0

    文章

    40

    浏览量

    9668
  • LLM
    LLM
    +关注

    关注

    0

    文章

    201

    浏览量

    233

原文标题:EMNLP2023 | LLM作用下的成分句法分析基础研究

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    单片机与电磁兼容基础研究

    本帖最后由 eehome 于 2013-1-5 10:04 编辑 单片机与电磁兼容基础研究
    发表于 08-13 15:52

    依存句法分析器的简单实现

    ,不做考虑。本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,得到了一个简单的汉语依存句法分析器。开源项目本文代码已集成到HanLP中开源:(hanlp网站自己搜索一
    发表于 10-17 13:12

    NLPIR语义分析是对自然语言处理的完美理解

    来。  按照多数文献的观点首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是通过分词、词频和位置统计等手段获得相关语言信息。其次,句法分析通过使句子成分特征化来分析
    发表于 10-19 11:34

    在Python中调用Java扩展包HanLP测试记录

    、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析
    发表于 12-12 16:27

    pyhanlp两种依存句法分类器

    依存句法分析器在HanLP中一共有两种句法分析器·依存句法分析(1)基于神经网络的高性能依存句法分析器(2)MaxEnt依存句法分析基于神经
    发表于 12-21 11:26

    基于CRF序列标注的中文依存句法分析器的Java实现

    这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析
    发表于 01-16 14:21

    自然语言处理句法分析

    Dependency Parser研究进展及主流方法
    发表于 09-18 06:02

    基于本体和句法分析的领域分词的实现

    针对基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法所存在的缺陷,提出基于本体和句法分析的某领域分词方法,通过建立体裁本体进行句法分析,从智能
    发表于 04-09 09:10 20次下载

    基于浅层句法信息的翻译实例获取方法研究

    翻译实例库是基于实例的机器翻译系统的主要知识源。本文采用基于浅层句法分析的方法进行翻译实例的获取。首先根据浅层句法信息划分源语言和目标语言的翻译单元,然后在词
    发表于 11-24 15:32 13次下载

    助焊剂成分作用分析

    焊接用的助焊剂的成分作用进行了详细的分析和选用指导。
    发表于 05-06 14:12 0次下载

    如何使用中文信息MMT模型进行句法自动分析资料免费下载

    本文叙述采用中文信息MMT模型对句子进行句法自动分析的工程实践。研制了可在互联网在线运行的句法分析专家系统。对使用的理论、方法和工具作了详细介绍。介绍了粒计算与符号学理论在句法分析中的
    发表于 12-19 14:53 1次下载
    如何使用中文信息MMT模型进行<b class='flag-5'>句法</b>自动<b class='flag-5'>分析</b>资料免费下载

    自然语言处理中极其重要的句法分析

    深层文法句法分析,即利用深层文法,例如词汇化树邻接文法(Lexicalized Tree Adjoining Grammar,LTAG)、词汇功能文法(Lexical Functional
    的头像 发表于 04-09 10:23 1.3w次阅读

    什么是句法分析

    要深入研究句法分析,首先要知道,什么样的句法分析算是好的句法分析,所以句法分析方法的评价是首要思考的问题,目前进行
    的头像 发表于 11-24 09:36 6823次阅读
    什么是<b class='flag-5'>句法分析</b>

    基于句法语义依存分析的金融事件抽取

    事件抽取在自然语言处理应用中扮演着重要的角色,如股票市场趋势预测.传统事件抽取较为关注触发词和论元所属类型的正确性,较少地结合应用需求去分析研究事件抽取效果及使用价值.在财经领域,事件作用对象及动作
    发表于 03-24 14:03 8次下载
    基于<b class='flag-5'>句法</b>语义依存<b class='flag-5'>分析</b>的金融事件抽取

    LLM在各种情感分析任务中的表现如何

    地址 :https://arxiv.org/pdf/2305.15005.pdf 代码 :https://github.com/DAMO-NLP-SG/LLM-Sentiment 这篇工作调查了LLM时代情感分析
    的头像 发表于 05-29 17:24 1515次阅读
    <b class='flag-5'>LLM</b>在各种情感<b class='flag-5'>分析</b>任务中的表现如何