0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

论辩挖掘在不同领域下的应用

深度学习自然语言处理 来源:复旦DISC 作者:李寅子 2022-03-30 16:15 次阅读

引言

论辩研究和推理是一个涉及到逻辑、语言、计算机等多学科领域的过程,在人工智能兴起的时代,计算论辩试图将人类对于论辩领域的知识和人工智能结合起来,用计算机深度模型来挖掘论辩语义、论辩结构等方面,达到自动推理的效果。论辩挖掘是计算论辩中的一个重要任务,它的主要任务有单篇式论辩挖掘,包括提论点分类、论点评估等;交互式论辩挖掘,包括论点对抽取等。此次的三篇论文将阐述论辩挖掘在司法领域、论辩领域、同行评议领域等的证据链支持、反驳证据评估、论点对抽取等方面应用。

文章概览

1.Argumentation-Driven Evidence Association in Criminal Cases

刑事案件中的证据关联是将一组司法证据划分为若干不重叠的子集,提高定罪的可解释性和合法性。可以观察到,分成同一子集的证据通常支持同一主张。在证据关联步骤中,此篇文章提出了一种基于论证驱动(argumentation-driven)的监督学习方法来计算证据对之间的联系。在实际数据集上的实验结果证明了该方法的有效性。

2. Knowledge-Enhanced Evidence Retrieval for Counterargument Generation

找到对陈述的反证是许多任务的关键。此篇文章建立了一个系统,给出一个陈述,从Web上不同的来源检索反证据。该系统的核心是一个自然语言推理(natural language inference, NLI)模型,它可以判断一个候选句子是否为有效反证。作者提出了一个知识增强的NLI模型,旨在通过整合知识图来处理基于因果关系和实例的推理。在实际数据集上的实验结果证明了该方法的有效性。

3. Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph

此篇文章通过一个相互引导的框架来处理论点对抽取(APE)任务,利用一个段落中一个论点的信息来指导识别另一个段落中可以与之配对的论点。此外,此篇文章还提出了一个句间关系图来有效地模拟两个句子之间的相互关系,从而有利于论点对的提取。实验结果表明,我们的方法明显优于目前SOTA的模型。

论文细节

1

31e12e0c-afe7-11ec-aa7f-dac502259ad0.png

动机

司法证据的作用是用来支持有利于定罪的诉讼请求,证据描述是刑事判决书的重要组成部分。然而,在不同的法律文件中,证据的组织是不同的。证据关联的形式主要有收集式(collection)和论证驱动式(argumentation-driven)。

31fca178-afe7-11ec-aa7f-dac502259ad0.png

在目前大多数的刑事裁判文书中,证据只是以集合的形式罗列出来,没有明确的主张,这被认为是集合的形式。但仅在5%左右的刑事判决文书中,依据相关主张将证据收集分为几个子集,被认为是论证驱动的形式。

由此,此篇文章提出了一项刑事案件中的证据关联任务,通过有监督的方法学习距离度量,无需额外的人工标注即可进行后续证据的聚类。

任务定义

给定证据集合,此篇文章将证据分为不重叠的个子集。

模型

(1)聚合方法

每一种情况下的聚类数量是不同的,所以不能像K-Means方法那样设置一个特定的聚类数量。作者通过层次聚类来聚类证据(Day and Edelsbrunner, 1984),它可以学习停止阈值,该阈值决定何时停止合并两个聚类。

(2)距离度量

本文提出了三种距离度量的概念,分别是Latent Distance、Explicit Distance和Ensemble Distance。

Latent Distance是证据之间的距离。在不给出明确主张的情况下,只能利用证据对的信息来计算它们之间的距离。支持同一主张的证据对之间的距离被标记为0,支持不同主张的证据对之间的距离被标记为1。

Explicit Distance是证据与主张之间的距离。证据和相应的主张之间有很强的相关性,例如,交通事故责任证明可以支持交通事故的责任划分。证据与相应主张的相关性分值为1,证据与其他主张的相关性分值为0。

Latent Distance仅利用证据之间的语义信息来计算相似度。Explicit Distance仅利用证据与主张之间的推理关系来计算证据之间的距离。Ensemble Distance将这两种方法融合在一起,同时利用证据之间的语义信息和证据与主张之间的推理信息,定义为这两个距离的加权和。

数据集及实验

作者以China Judgements Online中已发表的法律文件构建了一个数据集,选择如下图所示证据描述为论证驱动形式的法律文件进行实验。

321a08f8-afe7-11ec-aa7f-dac502259ad0.png

作者主要采用ESIM和BERT进行有监督学习的距离预测,结果如下表所示。

32355220-afe7-11ec-aa7f-dac502259ad0.png

表中的结果显示,有监督方法的性能较好。同时,BERT模型优于ESIM模型。可能的原因是,支持同一观点的证据对有共现趋势,这可以在BERT模型的下一个句子预测(next sentence prediction)任务中学习到。

Latent distance算法利用了证据对之间的语义信息,其性能优于explicit distance。基于ensemble distance的聚类结果由于整合了证据对之间和证据主张之间的关系,比单一距离的聚类结果有很大的提高。

3250a840-afe7-11ec-aa7f-dac502259ad0.png

如上图所示,claim1和claim2分别代表受害人的出生日期和死亡日期。受害者的户籍证明和死亡证明都能部分支持受害者的身份信息,但由于在使用Latent distance时只考虑证据对之间的关系,误将它们聚在一起。Claim4和claim5是相似的,它们都是对交通事故现场的描述,但由于在使用explicit distance时几乎没有考虑证据对之间的语义关系,将被告人王某的供述和证人董某的证言误聚在一起。从而将证据对之间的语义关系与证据主张之间的信息相结合,通过ensemble distance得到的聚类结果是正确的。

2

326bb46e-afe7-11ec-aa7f-dac502259ad0.png

动机

先前的研究大多集中于对长论点的主要结论提出反驳。虽然这样的反驳是有用的,但辩论式的对话通常是互动的,例如,在Change-MyView (CMV)中,挑战者经常引用特定的陈述来进行反驳。因此,本文的目标是为论点中的特定陈述找到反证,而不是为一个完整的论点生成一个反证。

任务定义

自然语言推理(natural language inference, NLI)模型是本文的核心,给定一个要反驳的陈述,系统对相关文档进行检索和排序,然后得到一组反证候选句。对于每个候选句,NLI模型决定它和陈述的关系是否包含、矛盾,或两者都不是。

模型

在本篇文章中,作者提出了知识增强NLI模型(KENLI),如下图所示。

3280ee42-afe7-11ec-aa7f-dac502259ad0.png

KENLI(图左)是基于RoBERTa-base ,以一对前提P和假设H为输入,计算其关系是蕴含、矛盾还是中性的概率。为了连接P和H之间的实体,知识增强(Knowledge Enhancement, KE)网被插入到某两层之间,将RoBERTa分为Encoder1和Encoder2。最后的预测是基于【CLS】进行的。

KE Net(图中)利用了知识图谱(knowledge graph, KG),其中节点是实体,边是实体之间的有向关系。KG目标是让信息通过KG在P和H的实体之间流动。KE Net是由一堆KE单元组成,每个KE单元使用两个transformer TR1和TR2处理KG上的单跳推理。TR1根据相邻实体更新每个实体embedding,TR2根据实体embedding更新词项embedding。本篇文章中使用了两个知识图谱CauseNet和Wikidata。

数据集及实验

此篇文章的数据主要来自公开的NLI数据集:MNLI (Williams et al., 2018)、ANLI (Nie et al., 2020b)、SNLI (Bowman et al., 2015)和FEVER-NLI (Nie et al., 2019)。实验的结果如下表所示,显示了每个模型5次实验的平均F1得分。

32a33cae-afe7-11ec-aa7f-dac502259ad0.png

表中可以看出KENLI(6-9行)基本上优于Baseline模型(1-5行)。这表明KENLI有效地整合了知识,有利于预测陈述之间的关系。

最后作者建立了反证检索系统,是在DeSePtion (Hidey et al., 2020)的基础上建立的。如下图所示。

32c2ae22-afe7-11ec-aa7f-dac502259ad0.png

给定一个要验证的陈述语句,检索相关文档并对其进行排序,对候选证据句进行排序,并预测该语句是被支持、被反驳还是都不支持。作者通过提出的知识增强NLI模型来强化了最后一个阶段。

3

32ddfc18-afe7-11ec-aa7f-dac502259ad0.png

动机

论点对抽取(Argument pair extraction, APE)的目的是从讨论的两段中抽取出交互式的论证对。

32f88ede-afe7-11ec-aa7f-dac502259ad0.png

以往的研究将该任务应用在同行评议中,但是缺乏论点对之间的论点级别交互的显式建模。此篇文章通过一个相互引导的框架来处理APE任务,利用一个段落中一个论点的信息来指导识别另一个段落中可以与之配对的论点。此外,此篇文章还提出了一个句间关系图来有效地模拟两个句子之间的相互关系,从而有利于论点对的提取。实验结果表明,我们的方法明显优于目前SOTA的模型。

模型

此篇文章提出了一个具有句间关系图的APE相互引导框架MGF,如下图所示。

3325aaa4-afe7-11ec-aa7f-dac502259ad0.png

(1)Inter-sentence Relation Graph

该图将review和rebuttal中的每一个句子作为节点,从两个角度进行构建。

In-passage Edge:根据句子(同一个段落中)在review/rebuttal段落中的相对位置,构建句子之间的边。两个in-passage句子之间边的权重的定义为:

Cross-passage Edge:基于两句之间的共现词,构建跨段落的句子边缘。两个in-passage句子之间边的权重的定义为:

(2)Mutual Guidance Framework

相互引导框架(mutual Guided Framework, MGF)首先使用BERT对句子进行编码,然后通过图卷积得到面向关系的句子表示法后,使用两个相互引导的标记器提取论点对。

数据集及实验

此篇文章使用Cheng等人(2020)提出的Review-Rebuttal (RR)数据集进行实验,该数据集包含从openreview.net收集的4,764篇ICLR的review/rebuttal文本对。Baseline是Cheng等人(2020)提出的PL-H-LSTM-CRF和MT-H-LSTM-CRF 。实验的结果如下表。

334e342e-afe7-11ec-aa7f-dac502259ad0.png

从表中可以看出,作者提出的模型MGF在数据集上取得了最好的性能。在不使用BERT微调的情况下,Non-FT-MGF的性能仍然优于MT-H-LSTM-CRF,这表明MDF实现的性能增益不仅仅是由于BERT微调。通过对MGF和Non-FT-MGF的比较,可以发现BERT微调可以进一步改善模型结果。

参考文献

[1] Yefei Teng and WenHan Chao. 2021.Argumentation-Driven Evidence Association in Criminal Cases. InFindings of the Association for Computational Linguistics: EMNLP 2021, pages 2997–3001, Punta Cana, Dominican Republic. Association for Computational Linguistics.

[2] Yohan Jo, Haneul Yoo, JinYeong Bak, Alice Oh, Chris Reed, and Eduard Hovy. 2021.Knowledge-Enhanced Evidence Retrieval for Counterargument Generation. InFindings of the Association for Computational Linguistics: EMNLP 2021, pages 3074–3094, Punta Cana, Dominican Republic. Association for Computational Linguistics.

[3] Jianzhu Bao, Bin Liang, Jingyi Sun, Yice Zhang, Min Yang, and Ruifeng Xu. 2021.Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph. InProceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 3923–3934, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1781

    文章

    44785

    浏览量

    231966
  • 模型
    +关注

    关注

    1

    文章

    2797

    浏览量

    47976
  • 数据集
    +关注

    关注

    4

    文章

    1182

    浏览量

    24461

原文标题:EMNLP 2021 | 论辩挖掘在不同领域下的应用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    iBeLink KS MAX 10.5T大算力领跑KAS新领域

    Kaspa是一种基于DAG(有向无环图)技术的加的密的货的币,它拥有高速、安全、可扩展的特点,是未来区的块的链领域的新星。为了挖掘Kaspa,我们需要一款专门的挖掘机,能够适应Kaspa的特殊算法
    发表于 02-20 16:11

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和方法,通过高效的算法和工具,对大数据进行分析和挖掘,从而
    的头像 发表于 02-03 14:19 945次阅读

    充分挖掘SiC FET的性能

    充分挖掘SiC FET的性能
    的头像 发表于 12-07 09:30 221次阅读
    充分<b class='flag-5'>挖掘</b>SiC FET的性能

    机器学习与数据挖掘方法和应用

    机器学习与数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    关于数据挖掘的十种算法原理讲解

    数据挖掘主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理,帮
    的头像 发表于 09-18 15:00 795次阅读
    关于数据<b class='flag-5'>挖掘</b>的十种算法原理讲解

    一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解

    数据挖掘主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理,帮
    的头像 发表于 09-14 15:56 604次阅读
    一文弄懂数据<b class='flag-5'>挖掘</b>的十大算法,数据<b class='flag-5'>挖掘</b>算法原理讲解

    机器学习与数据挖掘的区别 机器学习与数据挖掘的关系

    机器学习与数据挖掘的区别 , 机器学习与数据挖掘的关系 机器学习与数据挖掘是如今热门的领域。随着数据规模的不断扩大,越来越多的人们认识到数据分析的重要性。但是,机器学习和数据
    的头像 发表于 08-17 16:30 1705次阅读

    数据挖掘与机器学习专业就业方向

    数据挖掘与机器学习专业就业方向 随着信息技术的不断发展以及互联网的普及,我们现在生活在一个大数据时代中。大量的数据被收集并存储在不同的领域,并且这些数据随着时间的推移不断增长。然而,这些数据对于人类
    的头像 发表于 08-17 16:29 1388次阅读

    数据挖掘和机器学习之间的关系

    数据挖掘和机器学习之间的关系 数据挖掘和机器学习是两个非常相关的领域,但是在很多情况下它们被误解为是同一种东西。事实上,数据挖掘和机器学习有很多的不同之处,但也有很多的相似之处。在本文
    的头像 发表于 08-17 16:29 2418次阅读

    数据挖掘和机器学习有什么关系

    数据挖掘和机器学习有什么关系 数据挖掘和机器学习是两个不同的概念,但它们有一些重要的相似之处。这篇文章将详细介绍数据挖掘和机器学习之间的关系以及它们在现代数据科学中的作用。 一、数据挖掘
    的头像 发表于 08-17 16:29 2156次阅读

    数据挖掘十大算法

    数据挖掘十大算法 数据挖掘是目前最热门的技术和概念之一。数据挖掘是一种利用现代数据分析技术发现、提取和分析数据中有价值信息的过程。数据挖掘可以帮助人们发现数据背后的规律和趋势,从而为业
    的头像 发表于 08-17 16:29 2017次阅读

    python数据挖掘案例

    python数据挖掘案例 Python数据挖掘在各个领域中应用非常广泛。它可以帮助我们从大量的数据中挖掘出有价值的信息,从而为决策和优化提供依据。本文将介绍一些Python数据
    的头像 发表于 08-17 16:29 1087次阅读

    python数据挖掘与机器学习

    python数据挖掘与机器学习 Python是一个非常流行的编程语言,被广泛用于数据挖掘和机器学习领域。在本篇文章中,我们将探讨Python在数据挖掘和机器学习中的应用,并介绍一些Py
    的头像 发表于 08-17 16:29 983次阅读

    机器学习与数据挖掘的对比与区别

    机器学习与数据挖掘的对比与区别  机器学习和数据挖掘是当前互联网行业中最热门的领域之一。虽然它们之间存在一些对比和区别,但它们的共同点是研究如何有效地从海量数据中提取信息和洞察,并用于支持业务决策
    的头像 发表于 08-17 16:11 1232次阅读

    数据挖掘定义及方法 数据挖掘在微电子领域的应用

      摘要:本文首先介绍了微电子领域及该领域中半导体制造的发展现状,然后分析了数据挖掘在半导体制造中应用的必要性和可行性。最后重点讨论数据挖掘技术在研究晶圆制造质量异常问题中的应用,文章
    发表于 07-18 15:43 0次下载