0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于标签数据提升语法错误纠正效果

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-09-23 15:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语法错误纠正 (GEC) 指的是试图对语法和其他类型的写作错误进行建模,并给出语法和拼写建议,从而改善文档、电子邮件、文章甚至非正式聊天中的书面输出质量。在过去 15 年里,GEC 的质量有了很大提高,其中很大一部分原因是它将问题重塑为一项“翻译”任务。例如,将这种方法引入 Google 文档后,用户采纳的语法纠正建议数量显著增加。

将问题重塑为一项“翻译”任务

https://aclanthology.org/P06-1032/

但是,GEC 模型面临的最大挑战之一是数据稀少。不同于其他语音识别 (Speech recognition) 和机器翻译 (Machine translation) 等自然语言处理 (NLP) 任务,即便是针对英语这样的高资源语言,GEC 可用的训练数据非常有限。对于这类问题,一个常见的补救措施是使用一系列技术来生成合成数据,其中包括启发式随机词或字符级的损坏,以及基于模型的方法。然而,这些方法往往是简化的,不能反映实际用户错误类型的真实分布。

在 EACL 第 16 届创新使用 NLP 构建教育应用研讨会上发表的《使用有标签损坏模型进行语法错误纠正的合成数据生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我们介绍了有标签损坏模型。这种方法受到机器翻译中流行的回译数据合成技术启发,能够精确控制合成数据的生成,确保产生与实践中错误分布更加一致的多样化输出。我们使用有标签损坏模型来生成一个新的数据集(包含 2 亿个句子)。目前这个数据集应发布,可供研究人员提供真实的 GEC 预训练数据。通过将新的数据集整合到训练流水线,我们能够显著改善 GEC 的基线。

使用有标签损坏模型进行语法错误纠正的合成数据生成

https://aclanthology.org/2021.bea-1.4/

回译

https://aclanthology.org/P16-1009/

数据集(包含 2 亿个句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有标签损坏模型

将传统的损坏模型应用于 GEC,其背后的理念是,从一个语法正确的句子开始,然后通过添加错误“损坏”它。通过在现有 GEC 数据集中切换源句和目标句,可以轻松地训练出损坏模型,之前的研究已经表明,这种方法对生成改进的 GEC 数据集非常有效。

提供干净的输入句(绿色)后,传统损坏模型会生成一个不符合语法的句子(红色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我们提出的有标签损坏模型建立在这一理念的基础之上,它将一个干净的句子作为输入,加上一个错误类型标签,描述所要重现的错误类型。然后,它为输入句生成一个包含指定错误类型的语法错误版本。与传统的损坏模型相比,为不同句子选择不同的错误类型增加了损坏的多样性。

有标签损坏模型会根据错误类型标签,为干净的输入句(绿色)生成损坏(红色)。限定词错误可能会导致丢失限定词 “a”,而名词屈折变化错误可能导致错误的复数形式 “sheeps”

为使用此模型生成数据,我们首先从 C4 语料库中随机选择了 2 亿个干净的句子,并为每个句子分配了一个错误类型标签,令其相对频率与小型开发集 BEA-dev 的错误类型标签分布相匹配。由于 BEA-dev 是一个精心制作的集合,涵盖各种英语水平,范围很广,我们预计其标签分布能够代表现实中出现的写作错误。然后,我们用一个有标签损坏模型来合成源句。

使用有标签损坏模型生成合成数据。在合成的 GEC 训练语料库中,干净的 C4 句子(绿色)与损坏的句子(红色)配对。遵循开发集(条形图)中错误类型的频率,使用有标签损坏模型生成损坏的句子

C4 语料库

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

结果

在我们的实验中,有标签损坏模型在两个标准开发集(CoNLL-13 和 BEA-dev)上表现优于无标签损坏模型,比后者高出三个 F0.5-点(GEC 研究中的一个标准指标,结合了精确率和召回率 (Precision and recall),更注重精确率),并在两个广泛使用的学术测试集(CoNLL-14 和 BEA-test)上体现了最先进的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

标准指标

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有标签损坏模型不仅能在标准的 GEC 测试集上获得收益,还能够让 GEC 系统适应用户的语言水平。这一点会十分有用,原因之一是英语母语写作者的错误标签分布往往与非英语母语写作者的分布有很大不同。例如,英语母语者通常会犯更多标点符号和拼写错误,而限定词错误(例如缺少或多加冠词,如 “a”、“an” 或 “the”)在非英语母语写作者的文本中更为常见。

结论

众所周知,神经序列模型对数据的需求非常大,但用于语法错误纠正的注释训练数据却很少。新的 C4_200M 语料库是一个包含各种语法错误的合成数据集,用于预训练 GEC 系统时,它体现出了最先进的性能。通过发布该数据集,我们希望为 GEC 研究人员提供宝贵的资源来训练强大的基线系统。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93946
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51699
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    e203仿真报Syntax error: \"&\"unexpected错误的原因

    “NO” 再试一下: ls -l /bin/sh 改成bash 再跑测试程序: 成功! 原因分析:dash和bash应该是shell脚本语言的两种解释方式,Ubuntu默认采用dash,导致语法错误
    发表于 11-05 13:39

    语法纠错和testbench的自动生成

    ,每次跑仿真都需要修改语法错误;另外在写完一个模块之后,每次跑仿真前都需要搭建testbench,模块的实例化,这显然是很麻烦的,查阅资料发现vscode有插件可以解决上述问题,故来分享给大家
    发表于 10-27 07:07

    如何解决将e203的rtl导入vivado后报语法错误的问题

    主要内容是介绍一下如何解决将e203的rtl导入vivado后,报语法错误的问题。 二、分享内容 如图所示,导入源码后跑仿真,会报语法错误。 这是因为这些文件里面有用system verilog
    发表于 10-24 09:49

    使用ming64和vs2019编译v5.0.2和master的bsp/simulator报错怎么解决?

    :repositoryrt-threadrt-threadcomponentsdriversrtcrtc.c(372,1): error C2143: 语法错误: 缺少“)”(在“,”的前面) 1>D
    发表于 09-29 08:13

    程序编译运行正常但是显示语法错误,为什么?

    样例程序:can_sample.c rtconfig.h里启用了#define RT_CAN_USING_HDR 代码从图中这里开始大段标识语法错误: 跳转到宏
    发表于 09-25 06:27

    AI技术在工程设计的应用

    在不需要硬件交互的纯软件项目中,ChatGPT和Gemini等大语言模型(LLM)可以帮助程序员以前所未有的速度加速开发进程。这种辅助通常包括在开发人员编写代码时提供补全建议,或在排查错误语法错误时提供故障排除建议——这些都是耗时的编程环节。
    的头像 发表于 09-23 16:21 542次阅读
    AI技术在工程设计的应用

    NFC读写器助力标签质量检测,提升应用优势!

    NFC读写器在智能标签质量检测中展现出显著优势:采用非接触式检测,避免标签损伤且提升效率;能全面验证标签功能与性能,确保可靠性;支持自动化批量检测,大幅提高生产效率;易于集成开发,成本
    的头像 发表于 09-17 10:22 436次阅读
    NFC读写器助力<b class='flag-5'>标签</b>质量检测,<b class='flag-5'>提升</b>应用优势!

    pkgs下载报python语法错误怎么解决?

    发表于 09-12 07:51

    小红书:通过商品标签API自动生成内容标签,优化社区推荐算法

    ​  小红书作为领先的社交电商平台,用户生成内容(UGC)是其核心驱动力。随着商品数量和用户互动激增,传统推荐算法面临效率瓶颈。本文探讨小红书如何利用商品标签API自动生成内容标签,显著提升社区
    的头像 发表于 09-10 16:46 699次阅读
    小红书:通过商品<b class='flag-5'>标签</b>API自动生成内容<b class='flag-5'>标签</b>,优化社区推荐算法

    如何评估通信协议优化对数据传输效率的提升效果

    评估通信协议优化对数据传输效率的提升效果,核心逻辑是 “控制变量 + 多维度量化对比”—— 即通过定义明确的评估目标、构建一致的测试环境、选取关键效率指标,对比优化前后的协议表现,最终验证优化是否达到预期(如降低延迟、
    的头像 发表于 08-29 17:52 671次阅读

    RFID扎带标签的应用管理

    :减少了人工操作的错误率,提高了数据的准确性和可靠性。安全性:RFID标签可以加密,防止数据被非法读取或篡改,保障物流信息安全。二、RFID扎带标签
    的头像 发表于 08-29 16:44 587次阅读
    RFID扎带<b class='flag-5'>标签</b>的应用管理

    使用s32ds软件时,无法生成是怎么回事?

    使用s32ds软件时,无法生成,并显示以下错误消息。 请帮忙。 生成器:错误错误:LinStackCfg.npf 行:5 “bus_clock” - 语法错误
    发表于 04-04 08:04

    云里物里ESL电子标签如何推动工业仓储智能化升级

    ESL电子标签可联动货架警示灯,通过LED灯闪烁指引人员快速定位操作区域,电子墨水屏实时更新货物信息。货物的出入库操作完成后,工作人员通过PDA扫描条码或标签按键,可快速同步更新后台数据,减少人工录入
    的头像 发表于 03-17 15:22 825次阅读

    常见xgboost错误及解决方案

    的XGBoost错误及其解决方案: 1. 数据预处理错误 错误 :未对数据进行适当的预处理,如缺失值处理、特征编码、特征缩放等。 解决方案
    的头像 发表于 01-19 11:22 4639次阅读

    SSM开发中的常见问题及解决方案

    : 配置文件存在错误,如语法错误、路径错误或格式错误,导致软件系统无法正常运行。 解决方案 : 仔细检查配置文件的语法、路径和格式,确保其
    的头像 发表于 12-17 09:16 1852次阅读