0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP领域的语言偏置问题分析

深度学习自然语言处理 来源:南大NLP 2024-01-03 11:00 次阅读

来自:南大NLP

01研究动机

许多研究证明,学术论文表达的nativeness会影响其被接受发表的可能性[1, 2]。先前的研究也揭示了非英语母语的作者在国际期刊发表论文时所经历的压力和焦虑。我们通过对自然语言处理(NLP)论文摘要进行全面的统计分析,发现不同语言背景的作者在写作中的词汇、形态、句法和连贯性方面有明显的差异,这表明NLP领域存在语言偏置的可能性。因此,我们提出了一系列建议,以帮助学术期刊和会议的出版社改进他们对论文作者的指南和资源,以增强学术研究的包容性和公平性。

02数据收集

为了分析NLP领域的语言偏置,我们收集的论文摘要来自于ACL和EMNLP会议上发表的论文,以及arXiv.org的论文,标签为“Computation and Language”。本文研究中,我们假设第一作者是文章的撰写者。为了确定每篇文章的第一作者的国籍,我们设计了一些启发式方法。首先,我们通过提取电子邮件地址来确定作者所属机构的国籍。然后,我们使用一个姓名起源数据库来确定第一作者是否与该机构具有相同的国籍。在机构国籍未知或作者国籍与机构国籍不太可能相符的情况下,这些摘要将被丢弃。最后,为了确保有足够的数据进行分析,我们保留了数据集中摘要最多的五个国家的数据。这些国家分别是中国、美国、德国、日本和印度。数据集的统计信息见表1。

表1:数据集统计数据

c3399924-a97e-11ee-8b88-92fbcf53809c.png

03分析

我们的分析涵盖了词汇形态句法连贯性等语言特性,这被认为是语法能力和文本能力的核心组成部分[3]。以下是对每种特性的分析和讨论。

3.1 词汇

我们从两个不同的层次分析不同国家使用的词汇特征。首先,我们通过计算类符行符比(token-type ratio)来研究词汇的多样性。其次,我们通过词汇束(lexical bundle)分析来探索多词级别的词汇,从中找出常用的词汇块。

3.1.1 词汇多样性

为了分析词汇多样性,我们计算每个文本的类符行符比(token-type ratio)。类符行符比通过将文本中独特词的数量除以总词数来计算。较高的比率表示更高的词汇多样性。统计结果如表2中所示。

表2: 平均类符行符比和词汇链长度

c34b5b82-a97e-11ee-8b88-92fbcf53809c.png

从结果中可以看到,与其他语料库相比,美国和德国的语料库有相对稍高的类符行符比(token-type ratio)。我们假设这是由于使用同义词、下义词和上义词的增加所导致的。为了验证这点,我们计算了词汇链的长度,其中每个链包含一个摘要中所有语义相关的词汇;这些词汇可以通过同义词、下义词或上义词来进行语义关联。所有名词的平均链长度展示在表2的右侧列中。可以看到,美国语料库中的平均词汇链长度是所有语料库中最长的,这意味着平均而言他们会使用更广泛的词汇来描述类似概念。相比之下,日本和印度的语料库具有最短的平均链长度,相对稍少的语义相关术语的使用是一个可能的因素。

3.1.2 词汇束

为了捕捉不同国家的作家如何使用词汇束,我们对四个词汇束的使用模式进行了分析。我们通过保留超过预定频率阈值和分散阈值的词汇束来确保每个语料库的代表性。表3展示了词汇束的频率(Bundles per Million Words)、独特词汇束的数量(Unique Bundles)和不同语法类别的词汇束数量。

表3:四个词汇束统计信息

c3593180-a97e-11ee-8b88-92fbcf53809c.png

从表3中可以看出,在不同的语料库之间,词汇束的频率存在很大的差异。例如,在中国、日本和印度的语料库中,词汇束的使用量是美国语料库的两倍以上,而美国语料库的使用量最少(Bundles per Million Words)。此外,还可以观察到非英语母语的语料库中使用的独特词汇束数量(Unique Bundles)比美国语料库更多。第二语言使用者使用词汇束的情况已经在文献中广泛研究过[4, 5, 6, 7],其中有一种假设是增加使用次数是因为作者依赖使用固定的词汇表达式以产生更符合学术要求的文本,并避免产生被视为非传统的表达方式[7]。

我们更深入地研究了词汇束在摘要中特定功能的使用,即引入论文主要思想的功能。该功能的规范化束计数如表4所示。

表4: 表达引入论文主要思想的词汇束频率(每百万词)

c362bd86-a97e-11ee-8b88-92fbcf53809c.png

可以看到,在中国、印度和日本的语料库中,这个特定功能的词汇束使用率很高,使用频率比美国的语料库高出41%(日本语料库)到69%(中国语料库)。然而,我们注意到这三个语料库中的模式有所不同。例如,在中国语料库中,总体使用量较高似乎可以归因于一个特定词汇束的高使用率(in this paper we)。如果将其与日本语料库进行对比,我们可以看到尽管词汇束的总体使用仍然很高,但使用情况分布在更广泛的词汇束范围内,而不是一个单一的词汇束。

3.2 形态

为了分析形态学维度,我们调查了五个国家作家使用不同动词形式的分布情况。具体来说,对于每个语料库中的句子,我们确定主动词,并根据其是否是过去时态、过去分词、基本形式、第三人称现在时、非第三人称现在时或动名词来分类动词形式。分布结果如图1所示。

c37360b4-a97e-11ee-8b88-92fbcf53809c.png

图 1:每个语料库中动词形式的分布

根据分析,我们发现这些分布在不同地点上相当一致。然而,还是存在一些例外情况。例如,对于过去时使用(VBD),日本语料库显示出这种动词形式的使用更频繁,超过12%的动词带有VBD标记。这比其他地点的使用频率高出两倍以上。相反地,非第三人称现在时(VBP)在日本语料库中使用相对较少,有45.5%的动词使用这种形式,而美国语料库中有56%的动词使用这种形式(这是最频繁的情况)。

3.3 句法

在句法分析中,我们探索短语级别、从句级别和句子级别的复杂性。为了做到这点,我们使用了多种测量方法:名词短语修饰语的平均数量、每个句子中的从句数量、平均解析树深度和平均句子长度。分析结果如表5所示。

表5:句法复杂度指标

c37e4b5a-a97e-11ee-8b88-92fbcf53809c.png

我们观察到在名词短语层面上,与数据集中的其他国家相比,美国和德国的语料库表现出较低的复杂性(即,较少使用名词短语修饰语)。然而,当我们观察从句和句子的层面时,来自美国和德国的文本比其他国家的写作表现出更高的复杂性。这一观察意味着在表达复杂思想方面可能存在一些不同的偏好,其中一种选择是通过更多的短语修饰语来表达复杂性,而另一种选择是将句子拆分成多个从句。

3.4 连贯性

与已有分析第二语言使用者写作连贯性的研究[8, 9, 10, 11]相似,我们比较了不同国家作者之间的语篇连接词的使用情况。为此,我们记录了所有来自[12]提供的语篇连接词清单中的连接词的使用。平均每个句子的语篇连接词数量如表6所示。

表6: 每个句子中平均的语篇连接词数量

c38ce55c-a97e-11ee-8b88-92fbcf53809c.png

如上所述,可以看出,美国和德国的文本中使用了更多的链接词。为了探究不同国家的链接词偏好,我们列出了与美国语料库相比每个语料库使用率最高的五个连词。结果如表7所示。

表7:与美国语料库相比,使用比例最高的五个语篇连接词

c394fb0c-a97e-11ee-8b88-92fbcf53809c.png

可以看出,每个语料库都有自己独特的语篇连接词集,在与整个数据集相比时更受偏爱。例如,在中国语料库中,firstly 是一种高度偏爱的连接词,比来自美国的作者使用频率高出11倍。同样,besides 也是中国作者高度偏爱的连接词,在中国语料库中的出现频率比美国语料库高出10倍以上。我们还注意到,德国、印度和日本语料库中对consequential(以结果为导向)连接词有偏好,其中hence、thereby和therefore的出现频率显著高于美国语料库(其中一些未在表中列出,因为它们仅略逊于前5位)。

04结论和推荐

在本文研究中,我们致力于解决学术出版中的语言偏置问题。我们对自然语言处理领域的学术写作进行了全面对比分析,发现了许多特征在来自不同国籍的作者之间存在很大差异。这些发现凸显了语言偏置的潜在风险。为了解决这个问题,我们概述了一套推荐措施,建议学术期刊和会议在他们的作者指南中如何支持来自全球各地的论文作者。我们的建议专注于本研究中四个语言特性。例如,在不同作者群体之间差异较大的语言方面,作者指南中可以添加详细的解释和示例。另外,我们鼓励出版商提供免费访问的自动写作工具,能够进行改写等功能。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据收集
    +关注

    关注

    0

    文章

    66

    浏览量

    11064
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24353
  • 自然语言处理

    关注

    1

    文章

    509

    浏览量

    13103
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21823

原文标题:EMNLP2023 | 通过NLP领域学术写作的对比分析试图解决语言偏置问题

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ChatGPT爆火背后,NLP呈爆发式增长!

    自然语言处理技术,用于计算机中模拟人类的对话和文本理解。主要源于AI大模型化的NLP技术突破是将深度学习技术与传统的NLP方法结合在一起,从而更好地提高NLP技术的准确性和效率。大模型
    的头像 发表于 02-13 09:47 2835次阅读

    【推荐体验】腾讯云自然语言处理

    `相信大家对NLP自然语言处理的技术都不陌生,它是计算机科学领域和AI领域中的一个分支,它与计算机和人类之间使用自然语言进行交互密切相关,而
    发表于 10-09 15:28

    对2017年NLP领域中深度学习技术应用的总结

    本文作者Javier Couto是tryo labs公司的一名研发科学家,专注于NLP技术。这篇文章是他对2017年NLP领域中深度学习技术应用的总结,也许并不全面,但都是他认为有价值、有意义的成果。Couto表示,2017年是
    的头像 发表于 12-28 10:02 5408次阅读
    对2017年<b class='flag-5'>NLP</b><b class='flag-5'>领域</b>中深度学习技术应用的总结

    NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

    本文用简洁易懂的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再到如何利用机器学习进行
    的头像 发表于 06-10 10:26 7.7w次阅读
    <b class='flag-5'>NLP</b>的介绍和如何利用机器学习进行<b class='flag-5'>NLP</b>以及三种<b class='flag-5'>NLP</b>技术的详细介绍

    Richard Socher:NLP领域的发展要过三座大山

    面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Richard Socher在近日指出:NLP领域
    的头像 发表于 09-06 11:40 3563次阅读

    NLP-Progress库NLP的最新数据集、论文和代码

    方向是自然语言处理的同学们有福啦,为了跟踪自然语言处理(NLP)的进展,有大量仁人志士在 Github 上维护了一个名为 NLP-Progress 的库。它记录了几乎所有
    的头像 发表于 11-17 09:21 2353次阅读

    回顾2018自然语言处理NLP最全的应用与合作

    2018年见证了 NLP 许多新的应用发展。Elvis Saravia 是计算语言学专家,也是2019 计算语言学会年度大会北美分部的项目委员之一。
    的头像 发表于 01-13 09:08 4599次阅读

    如何学习自然语言处理NLP详细学习方法说明

    这篇文章是一名自然语言处理(nlp)的初学者,在nlp里摸爬滚打了许久的一些心得,推荐了nlp的学习路线和资料合集,本站极力推荐。
    的头像 发表于 03-03 11:05 5451次阅读

    NLP领域的难处

    NLP领域公司大多成立在2015年、2016年左右,正逢AI热潮,入局并不算晚,但目前的融资大多还停留在A轮或者B轮,而同时期的语音、计算机视觉公司们却已经在纷纷冲刺上市。
    的头像 发表于 09-10 09:48 4723次阅读

    自然语言处理(NLP)的学习方向

    自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然
    的头像 发表于 07-06 16:30 1.3w次阅读

    NLP不仅可以做到帮助计算机学习并理解我们的语言

    这个时候,机器学习的分支——自然语言处理(NLP)应运而生,NLP不仅仅可以做到帮助计算机学习并理解我们的语言,更会帮助计算机进行“情感分析
    的头像 发表于 08-27 15:11 1877次阅读

    NLP 2019 Highlights 给NLP从业者的一个参考

    自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP领域而言,2019年是令人印
    的头像 发表于 09-25 16:56 1502次阅读

    微软团队发布生物医学领域NLP基准

    for BiomedicalNatural Language Processing生物医学特定领域语言模型预训练》,介绍并开源了一个能够用于生物医学领域 NLP 基准,并命名为 B
    的头像 发表于 10-22 11:21 2053次阅读
    微软团队发布生物医学<b class='flag-5'>领域</b><b class='flag-5'>NLP</b>基准

    人工智能技术是学什么 人工智能nlp指的是什么

    NLP指的是计算机科学与语言学转换的领域,人工智能和语言领域的分支学科。
    的头像 发表于 09-21 15:18 3634次阅读

    人工智能nlp是什么方向

    人工智能nlp是什么方向  人工智能(AI)已经日益普及,正在改变我们的方法和方式。AI 涵盖了许多领域,其中包括机器学习,计算机视觉,自然语言处理(NLP)等。在这些方向之中,
    的头像 发表于 08-22 16:45 1317次阅读