0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是句法分析

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2020-11-24 09:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自然语言处理课程的第二天今天总算是补完了,课程的时间有限,但是内容繁多,而且都是能深挖的大坑,我的主要研究重点不在这里,所以无法展开,下面是我对这次课的简单介绍和笔记,来自深蓝学院。

什么是句法分析 1

按照百度百科的解释就是指对句子中的词语语法功能进行分析,例如“我来晚了”中,“我”是主语,“来”是谓语,“晚了”就是补语。这块内容其实在语言学等领域已经有比较深入的研究,但是随着数据的逐渐增多,这种分析就需要利用计算机自动化,句法分析就是这样诞生的。

那么句法分析到底有什么用呢?句法分析的结果是一句话的句子成分分析,其实就可以用来做知识发现和挖掘,例如“张三是李四的儿子”,通过句法分析,能够知道主谓宾等关系,能够抽取具体的消息,例如这里能够获取一个关系——张三和李四是父子关系,根据这些知识,无论是做知识图谱,还是做问答机器人等,都有大的作用,可见,句法分析是知识抽取的重要基础。

句法分析的评价指标 2

要深入研究句法分析,首先要知道,什么样的句法分析算是好的句法分析,所以句法分析方法的评价是首要思考的问题,目前进行句法分析,主要是用依存句法分析,其具体的评价指标有下面5种。

无标记依存正确率(UAS):所有词中找到正确的头词所占的百分比,对于没有头词的根节点,只要根节点是对的,也将这个根节点算作其中(Nivre et al., 2004)

根正确率(RA):所有句子中找到正确根的句子所占的百分比(Yamada and Matsumoto, 2003)

完全匹配率(CM):所有句子中无标记依存结构完全正确的句子所占的百分比(Yamada and Matsumoto, 2003)

带标记依存正确率(LAS):所有词中找到正确的头词并分配到正确标记的词所占的百分比,对于没有头词的根节点,只要根节点是对的,也将这个根节点算作其中(Nivre et al., 2004)

标记正确率(LA):所有词中依存标记正确的词所占的百分比,只要根节点是对的,也将这个根节点算作其中(Nivre et al., 2004)

对现行方法的简单评价 3

首先看看英文的,英文毕竟是目前自然语言处理的主力和焦点,而且英语具有相对严禁的语法结构。

本身UAS的定义相比CM,就较弱,而且USA是无监督的方法,所以会比CM的正确率高很多。从CM看来,正确率不足50%,其实并不高,可见依存句法分析任重道远。

然后看中文,中文的自然语言处理相对比较难,一方面是中文本身的语法特性,另一方面中文分词的时候本就有误差,再进行句法分析会产生误差叠加。

可以明显地看到,UAS和CM相比英文会更加低,说明中文的难度会比英文高,目前的潜力仍比较强。

综上所述,目前虽然已经有比较丰富的方法,但是准确度还有比较大的上升空间。

句法分析的主要方法 4

纠结了很久,想了要怎么写,要是详细些,这就不是公众号,是书了,要是不详细写,又怕你们骂我,于是我想了一个比较中和的方案,那就是我弄综述,参考文献给你们,有兴趣的你们自己去看,你们觉得怎么样?

句法分析,尤其针对依存句法分析,主要有基于动态规划,基于决策,基于融合的方法,当然还有一些扩展性的方法。

基于动态规划的方法

基于动态规划的方法,其实就是直接对依存树进行分析。早期,采用的方法是将依存图中的节点看作短语结构中的节点,从而可以应用上下文无关文法中成熟的CKY算法(Gaifman, 1965),然而时间复杂度非常可怕地达到了O(n5),后来提出了双词汇语法,其方法主要分为产生式方法(Eisner, 1996)和判别式方法(McDonald et al., 2005; McDonald, 2006),成功地将复杂度降低到O(n3)。

生成式和判别式和机器学习里面的生成和判别相同,生成式方法采用联合概率模型生成一系列依存句法树并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后的输出,说白了就是把概率分布求出来,然后根据概率分布进行下一步的分析和决策,在句法分析中将词与词之间的依存关系看作是成分结构,用类似于短语结构句法分析的方法来获取依存关系,其优点是能够得到每种决策的概率关系,决策更加全面,但是缺点是毕竟在相同的信息下,相比判别式整体决策精度可能会下降,其信息消耗花在进行计算概率分布上太多,导致最后拍板的时候受到约束。

判别式将依存分析看作是在一个依存图上寻找最大生成树(MST)的问题,该生成树满足上述三个约束条件:连通、单一父节点、无环,并不需要求概率分布,相比生成式,其优点是操作更为简单,可以运用更多的机器学习方法,而且出现下溢的情况更少(计算机在计算10的负好多次方的时候会出现下溢情况,精度会大大下降),复杂度相对较低,最终精度偏高。

基于决策的方法

基于决策的方法把分析过程看成是分析序列,建立词之间的联系,Covington(2001) 将决策的过程从句子的左端开始,逐个接受每个词,并尝试连接每个词与先前的词并将其作为头词或依存词,这种算法简单易懂,但是穷举法计算低效而且受到语料库约束较大;Yamada和Matsumoto(2003)通过将关系分为左依存、右依存和无依存三种情况进行动作分析从而得到句法结构;Nivre和Scholz(2004)在Yamada和Matsumoto(2003)的基础上提出新的数据结构和动作分析方法,依存句法分析器主要由一个三元组构成,其中S表示一个栈结构, I表示剩余输入词序列, A表示在当前分析状态下所得到的依存关系集合,将动作从原来的3个升级为Left-arc, right-arc, reduce, shift四个。

从整体而言,基于决策的方法模型直观清晰,但是决策过程是贪婪的,局部的,精度收到很大限制,误差还会传递,所以仍存在较大问题。

基于融合的方法

机器学习中有基本的支持向量机、决策树等优秀的方法,但是却各有问题,于是提出了bagging,而基于融合的方法,将上述两个方法的优点结合。

基于搜索策略融合的方法(Duan et al., 2007)认为整个决策式依存句法分析过程可以看作是马尔科夫链。在每一步分析中会有若干个候选分析动作。句法分析的目标是在马尔科夫假设下寻找最有可能的分析动作序列,这样既可以利用丰富的上下文特征,又从全局的视角对决策动作建模,而算法的复杂度介于决策式方法和动态规划方法之间。按照他的说法进行实验得到的精度是这样的,可见优化了不少。

基于特征的融合方法(Nivre and McDonald, 2008)在McDonald和Nivre(2007)的“不同的句法分析器产生不同的错误”观点下提出两种思路,如下图所示(符号太复杂所以我就截图了):

最后还有基于模型的融合方法,Zhang和Clark(2008)将动态规划的方法和决策的方法进行加权组合。

扩展性工作

受限于树库规模较小,尤其是有标注的材料太少,所以句法分析的性能一直受到严重限制,目前有部分学者开始在有限的标注材料和较多的无标注材料下,使用半监督或者无监督的方法。

面临的挑战 5

前人尚且已经在句法分析上有丰硕的成果,但是下面几个方面仍有巨大的研究价值和研究潜力。

句法分析的准确度仍十分有限;

句法分析的评价指标是否合理目前尚无定论,CoNLL仍有一些问题,而且有人针对多个角度,例如语种等,有无更加灵活的机制;

句法分析的鲁棒性仍不够高,和评价指标的灵活性类似;

句法分析的速度,目前仍无法投入大数据的实现,然而速度和精度的两大矛盾体的存在性导致两者相互制约;

运用在互联网中的研究仍处起步阶段,主要针对句法分析的下游技术,面向信息抽取的句法分析,面向社区问答的句法分析等;

句法分析并不是上游技术,需要依赖分词、词性标注等关键技术,这些技术同样具有较大误差等问题,于是误差的传递下句法分析的性能受到较大约束。

小结 6

句法分析不是我的主要研究重点,也没太关注过这个重点,经过一些相关材料的阅读和学习,感觉还是有很大的研究空间,后续可能会有一些深入的阅读,扩充自己的知识面,也让自己应对各种问题多了一把新的有力武器。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97167
  • CM
    CM
    +关注

    关注

    0

    文章

    29

    浏览量

    23598
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14565

原文标题:句法分析综述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    vivado时序分析相关经验

    vivado综合后时序为例主要是有两种原因导致: 1,太多的逻辑级 2,太高的扇出 分析时序违例的具体位置以及原因可以使用一些tcl命令方便快速得到路径信息
    发表于 10-30 06:58

    如何用FIB截面分析技术做失效分析

    在半导体器件研发与制造领域,失效分析已成为不可或缺的环节,FIB(聚焦离子束)截面分析,作为失效分析的利器,在微观世界里大显身手。它运用离子束精准切割样品,巧妙结合电子束成像技术,实现对样品内部结构
    的头像 发表于 08-15 14:03 739次阅读
    如何用FIB截面<b class='flag-5'>分析</b>技术做失效<b class='flag-5'>分析</b>?

    Virtuallab Fusion应用:光栅的偏振分析

    ,通过了一致的矢量处理,它不仅包括场和光栅本身,也包括可能包含光栅的光学系统。其次,Virtuallab Fusion提供了对光栅的矢量特征进行详细的分析的必要工具。 在下面的示例中,我们将深入介绍偏振
    发表于 06-16 08:50

    频谱分析仪基础

    本书介绍了频谱分析仪原理,数字中频,幅度和频率精度,灵敏度和噪声,动态范围,扩展频率范围,现代信号分析
    发表于 03-05 11:36

    热重分析仪测试热分析温度的方法

    热重分析仪(TGA)主要用于对样品在热力学变化过程中产生的热失重、热分解过程进行记录和分析。因此热重分析仪被广泛应用在塑料、橡胶、化学、医药生物、建筑、食品、能源等行业。热重分析仪可测
    的头像 发表于 03-04 14:22 1048次阅读
    热重<b class='flag-5'>分析</b>仪测试热<b class='flag-5'>分析</b>温度的方法

    HarmonyOS NEXT 原生应用/元服务-性能分析基础耗时分析Time分析

    一、 函数耗时分析及优化 开发应用或元服务过程中,如果遇到卡顿、加载耗时等性能问题,开发者通常会关注相关函数执行的耗时情况。DevEco Profiler提供的Time场景分析任务,可在应用/元服务
    发表于 02-25 14:31

    功率分析仪选型_功率分析仪功能

    功率分析仪是一种专门用于测量和分析电力参数的电子设备,能够实时、准确地测量电路中的电压、电流、功率、功率因数等电力参数,并将测量结果以波形、图表等形式直观地显示出来。选择合适的功率分析仪需要综合考虑多方面因素,以下是一些详细的选
    的头像 发表于 01-28 14:49 1463次阅读

    脉冲信号分析仪‌的原理和应用场景

    脉冲信号分析仪是一种用于测量和分析脉冲信号的精密仪器。以下是对其原理和应用场景的详细介绍:一、原理脉冲信号分析仪的工作原理主要基于电子测量技术和信号处理技术。当脉冲信号被分析仪的接收器
    发表于 01-23 14:00

    混合信号分析仪的原理和应用场景

    混合信号分析仪是一种集成度高、功能强大的电子测量设备,其原理和应用场景如下:一、原理混合信号分析仪由模拟部分和数字部分组成,用于混合信号的分析。其工作原理主要包括以下几个方面: 信号采样:混合信号
    发表于 01-21 16:45

    函数信号分析仪的原理和应用场景

    函数信号分析仪是一种精密的电子测量仪器,其原理和应用场景如下所述:原理函数信号分析仪的核心原理主要基于信号的频谱分析和时域分析。它通过采集输入信号,并利用数学算法(如傅里叶变换)将信号
    发表于 01-20 14:13

    信号分析仪的原理和应用场景

    信号分析仪是一种用于分析电信号频谱和特性的仪器,其原理和应用场景如下:一、信号分析仪的原理信号分析仪的工作原理基于频谱分析技术。频谱表示信号
    发表于 01-17 14:37

    光栅的偏振分析

    ,通过了一致的矢量处理,它不仅包括场和光栅本身,也包括可能包含光栅的光学系统。其次,Virtuallab Fusion提供了对光栅的矢量特征进行详细的分析的必要工具。 在下面的示例中,我们将深入介绍偏振
    发表于 01-13 09:49

    偏振分析

    摘要 线栅偏振器,可以使透射光产生线性偏振状态,是众多应用中常见的一种光学元件。由于它们的结构在亚波长范围内,因此必须对光的传播进行严格的处理。VirtualLab的偏振分析器及其内置的RCWA
    发表于 01-13 08:59

    什么是热重分析(TGA)

    什么是热重分析(TGA)热重分析(TGA)在专业领域扮演着至关重要的角色。该技术通过精确测量样品在受控温度变化下的质量变化,来分析材料的热稳定性、分解行为和成分分析。本文将对TGA的运
    的头像 发表于 01-09 11:02 1801次阅读
    什么是热重<b class='flag-5'>分析</b>(TGA)

    XRF分析与其他分析方法的比较

    在材料科学、环境监测、地质勘探和工业质量控制等领域,元素分析是至关重要的。X射线荧光(XRF)分析作为一种成熟的技术,因其快速、准确和非破坏性的特点而被广泛应用。 XRF分析简介 XRF分析
    的头像 发表于 12-28 09:23 1392次阅读