侵权投诉

关于标签数据提升语法错误纠正效果

TensorFlow 2021-09-23 15:44 次阅读

语法错误纠正 (GEC) 指的是试图对语法和其他类型的写作错误进行建模,并给出语法和拼写建议,从而改善文档、电子邮件、文章甚至非正式聊天中的书面输出质量。在过去 15 年里,GEC 的质量有了很大提高,其中很大一部分原因是它将问题重塑为一项“翻译”任务。例如,将这种方法引入 Google 文档后,用户采纳的语法纠正建议数量显著增加。

将问题重塑为一项“翻译”任务

https://aclanthology.org/P06-1032/

但是,GEC 模型面临的最大挑战之一是数据稀少。不同于其他语音识别 (Speech recognition) 和机器翻译 (Machine translation) 等自然语言处理 (NLP) 任务,即便是针对英语这样的高资源语言,GEC 可用的训练数据非常有限。对于这类问题,一个常见的补救措施是使用一系列技术来生成合成数据,其中包括启发式随机词或字符级的损坏,以及基于模型的方法。然而,这些方法往往是简化的,不能反映实际用户错误类型的真实分布。

在 EACL 第 16 届创新使用 NLP 构建教育应用研讨会上发表的《使用有标签损坏模型进行语法错误纠正的合成数据生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我们介绍了有标签损坏模型。这种方法受到机器翻译中流行的回译数据合成技术启发,能够精确控制合成数据的生成,确保产生与实践中错误分布更加一致的多样化输出。我们使用有标签损坏模型来生成一个新的数据集(包含 2 亿个句子)。目前这个数据集应发布,可供研究人员提供真实的 GEC 预训练数据。通过将新的数据集整合到训练流水线,我们能够显著改善 GEC 的基线。

使用有标签损坏模型进行语法错误纠正的合成数据生成

https://aclanthology.org/2021.bea-1.4/

回译

https://aclanthology.org/P16-1009/

数据集(包含 2 亿个句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有标签损坏模型

将传统的损坏模型应用于 GEC,其背后的理念是,从一个语法正确的句子开始,然后通过添加错误“损坏”它。通过在现有 GEC 数据集中切换源句和目标句,可以轻松地训练出损坏模型,之前的研究已经表明,这种方法对生成改进的 GEC 数据集非常有效。

提供干净的输入句(绿色)后,传统损坏模型会生成一个不符合语法的句子(红色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我们提出的有标签损坏模型建立在这一理念的基础之上,它将一个干净的句子作为输入,加上一个错误类型标签,描述所要重现的错误类型。然后,它为输入句生成一个包含指定错误类型的语法错误版本。与传统的损坏模型相比,为不同句子选择不同的错误类型增加了损坏的多样性。

有标签损坏模型会根据错误类型标签,为干净的输入句(绿色)生成损坏(红色)。限定词错误可能会导致丢失限定词 “a”,而名词屈折变化错误可能导致错误的复数形式 “sheeps”

为使用此模型生成数据,我们首先从 C4 语料库中随机选择了 2 亿个干净的句子,并为每个句子分配了一个错误类型标签,令其相对频率与小型开发集 BEA-dev 的错误类型标签分布相匹配。由于 BEA-dev 是一个精心制作的集合,涵盖各种英语水平,范围很广,我们预计其标签分布能够代表现实中出现的写作错误。然后,我们用一个有标签损坏模型来合成源句。

使用有标签损坏模型生成合成数据。在合成的 GEC 训练语料库中,干净的 C4 句子(绿色)与损坏的句子(红色)配对。遵循开发集(条形图)中错误类型的频率,使用有标签损坏模型生成损坏的句子

C4 语料库

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

结果

在我们的实验中,有标签损坏模型在两个标准开发集(CoNLL-13 和 BEA-dev)上表现优于无标签损坏模型,比后者高出三个 F0.5-点(GEC 研究中的一个标准指标,结合了精确率和召回率 (Precision and recall),更注重精确率),并在两个广泛使用的学术测试集(CoNLL-14 和 BEA-test)上体现了最先进的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

标准指标

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有标签损坏模型不仅能在标准的 GEC 测试集上获得收益,还能够让 GEC 系统适应用户的语言水平。这一点会十分有用,原因之一是英语母语写作者的错误标签分布往往与非英语母语写作者的分布有很大不同。例如,英语母语者通常会犯更多标点符号和拼写错误,而限定词错误(例如缺少或多加冠词,如 “a”、“an” 或 “the”)在非英语母语写作者的文本中更为常见。

结论

众所周知,神经序列模型对数据的需求非常大,但用于语法错误纠正的注释训练数据却很少。新的 C4_200M 语料库是一个包含各种语法错误的合成数据集,用于预训练 GEC 系统时,它体现出了最先进的性能。通过发布该数据集,我们希望为 GEC 研究人员提供宝贵的资源来训练强大的基线系统。

责任编辑:haq

原文标题:推出 C4_200M 有标签数据,提升语法错误纠正效果

文章出处:【微信号:tensorflowers,微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

2021 OPPO开发者大会:OPPO满足开发者需求

2021 OPPO开发者大会:OPPO满足开发者需求 2021 OPPO开发者大会上介绍了开发者需求....
的头像 璟琰乀 发表于 10-27 14:40 10次 阅读
2021 OPPO开发者大会:OPPO满足开发者需求

特斯拉Q3财报显示利润率高出天际,赚钱不靠“卖碳”了

10月22日,特斯拉如期公布了Q3财报,虽然马斯克没有出席财报会议,但这次会议带来的信息足以震撼各大....
的头像 电子发烧友网 发表于 10-27 10:41 89次 阅读

oppo开发者大会2021时间表

2021 OPPO开发者大会于10月27日在上海举办,在OPPO开发者大会上,将为开发者和创作者分享....
的头像 lhl545545 发表于 10-27 09:25 80次 阅读

怎样向DS1302时钟芯片写入数据和读取数据呢

怎样向DS1302时钟芯片写入数据和读取数据呢?
发表于 10-27 07:55 0次 阅读

请问网络中IP数据报传输的过程是怎样的?

请问网络中IP数据报传输的过程是怎样的?
发表于 10-27 07:03 0次 阅读

能够直接翻译两种语言间语音的模型

语音转语音翻译 (S2ST) 是打破世界各地人与人之间语言障碍的关键。自动 S2ST 系统通常由语音....
的头像 TensorFlow 发表于 10-26 15:57 273次 阅读

已知首个针对模拟2D赛车任务的解决方案

人们在陌生的建筑物中走动时,会利用大量的视觉、空间和语义线索来有效地锁定目标位置。例如,即使在陌生的....
的头像 TensorFlow 发表于 10-26 15:52 213次 阅读

易路:PeopleAnalytics的发展趋势及对HR的启示

本文由易路人力资源科技特邀作者Jeff Luo原创 作者简介:罗粤海Jeff,英国杜伦大学 (Dur....
的头像 话说科技 发表于 10-26 14:29 114次 阅读
易路:PeopleAnalytics的发展趋势及对HR的启示

浅析C++基础语法梳理之网络编程中Socket

Socket Linux Socket 编程(不限 Linux) Socket 中的 read()、....
的头像 C语言编程学习基地 发表于 10-26 10:10 211次 阅读
浅析C++基础语法梳理之网络编程中Socket

浅析C++基础语法之计算机网络中传输层(TCP&UDP)

运输层 协议: TCP(Transmission Control Protocol,传输控制协议) ....
的头像 C语言编程学习基地 发表于 10-26 10:07 114次 阅读
浅析C++基础语法之计算机网络中传输层(TCP&UDP)

如何将python打包后的exe还原成py

用到的工具 pyinstxtractor.py 拆包(解压)工具,将exe文件解压成一个文件夹 un....
的头像 马哥Linux运维 发表于 10-26 09:56 114次 阅读
如何将python打包后的exe还原成py

如何抓住这种需求激增所带来的物联网市场机会

  随着技术的发展,连网设备的数量正在迅速增加。事实上,据估计,目前每秒钟有 127 台新设备连接到....
的头像 物联网智慧城市D1net 发表于 10-26 09:10 312次 阅读

如何通过FEDOT将AutoML用于时间序列数据?

如何通过FEDOT将AutoML用于时间序列数据? 如何通过时间序列预测的现实世界任务了解FEDOT的核心正在发生什么? ...
发表于 10-26 07:37 0次 阅读

中游的风力发电设备论述

风电作为一种清洁能源,备受各国关注,近年来,在降低碳排放、能源结构转型的背景下,风电行业实现了快速的....
的头像 MATLAB 发表于 10-25 16:54 304次 阅读

如何选择异常检测算法

异常检测(也称为离群点检测)是检测异常实例的任务,异常实例与常规实例非常不同。这些实例称为异常或离群....
的头像 Imagination Tech 发表于 10-25 09:15 152次 阅读

什么是双向数据绑定?

什么是双向数据绑定? 什么是Object.definePropety? ...
发表于 10-25 07:21 0次 阅读

华为开发者大会2021智能硬件开发—正确的数据分级分类

2021年10月22日~24日,华为将在中国松山湖举行2021华为开发者大会,聚焦鸿蒙系统、智能家居....
的头像 汽车玩家 发表于 10-23 15:21 157次 阅读
华为开发者大会2021智能硬件开发—正确的数据分级分类

2021华为开发者大会:图库应用数据加载显示模型

OpenHarmony分论坛-图库应用数据加载显示模型 2021华为开发者大会OpenHarmony....
的头像 璟琰乀 发表于 10-23 12:47 142次 阅读
2021华为开发者大会:图库应用数据加载显示模型

华为开发者HarmonyOS零基础入门:UI组件设计开发实践

华为开发者HarmonyOS零基础入门:UI组件设计开发实践之图库应用介绍,应用数据加载显示模型图片....
的头像 lhl545545 发表于 10-23 10:58 200次 阅读
华为开发者HarmonyOS零基础入门:UI组件设计开发实践

华为开发者HarmonyOS零基础入门:系统能力调用示例

华为开发者HarmonyOS零基础入门:系统能力调用示例,修改组件属性页面加载参数接收数据连接,优化....
的头像 lhl545545 发表于 10-23 10:44 219次 阅读
华为开发者HarmonyOS零基础入门:系统能力调用示例

分布式锁三个属性和两大类

“分布式锁”这个问题快被说烂了,奈何笔者实在没有找到一个满意的答案,故记录自己寻找答案、总结的过程。....
的头像 数据分析与开发 发表于 10-22 17:30 291次 阅读

到底是更新缓存还是删缓存

如何保证缓存和数据库一致性,这是一个老生常谈的话题了。 但很多人对这个问题,依旧有很多疑惑: 到底是....
的头像 数据分析与开发 发表于 10-22 17:05 310次 阅读
到底是更新缓存还是删缓存

埋点实践过程中遇到的一些问题

埋点本身现在已经有太多的集成解决方案,神策、诸葛IO、GIO,但是在实践的过程中仍然还是会碰都很多问....
的头像 数据分析与开发 发表于 10-22 16:33 245次 阅读

支持数据转发和基于FPGA的图像处理卸载的图像采集卡

单输入至四输入的CoaXPress 2.0图像采集卡,支持数据转发和基于FPGA的图像处理卸载 用于....
的头像 广州虹科电子科技有限公司 发表于 10-22 10:38 832次 阅读
支持数据转发和基于FPGA的图像处理卸载的图像采集卡

思迈特软件Smartbi:数据看板搭建的常见错误分析

但在实际工作中,由于拉新、留存、转化分别由市场、产品、运营三个部门负责,用户增长数据分隔在三个部门的....
发表于 10-22 10:37 37次 阅读

北明软件参加华为开发者大会2021

据消息,北明软件参加华为开发者大会2021,北明软件将通过“软件定义世界,数据驱动未来”愿景,全方位....
的头像 lhl545545 发表于 10-22 09:31 313次 阅读

NVIDIA为轻量级地图和精确感知提供高性能计算

NVIDIA DRIVE Orin为轻量级地图和精确感知提供高性能计算。 自动驾驶卡车需要减轻绘制地....
的头像 NVIDIA英伟达企业解决方案 发表于 10-22 09:26 193次 阅读

怎样去搭建一种基于Simulink的变速恒频双馈风力发电模型呢

双馈风力发电机运行的原理是什么? 怎样去搭建一种基于Simulink的变速恒频双馈风力发电模型呢? ...
发表于 10-22 08:20 0次 阅读

怎样去提取基于视频流的兴趣HOG特征呢

怎样去提取基于视频流的兴趣HOG特征呢?其具体原理是什么?...
发表于 10-22 06:01 0次 阅读

嵌入式软件开发常用的开发模型介绍

瀑布模型 该模型是由上至下一次性完成整个项目的开发方式。该模型一共分为6个阶段,如图所示: 在瀑布模....
的头像 嵌入式ARM 发表于 10-21 14:40 190次 阅读
嵌入式软件开发常用的开发模型介绍

浅析数据分析之指标设计

数据指标,并不是数据分析和业务同学的专属模块。日常会用到数据指标的,还包括开发(比如机器资源利用率,....
的头像 数据分析与开发 发表于 10-21 14:27 219次 阅读

ML规模复杂的相关基础架构

  Waze 是世界上最大的基于社区的交通和导航应用。该应用借助实时数据来帮助用户避开路上的障碍,享....
的头像 TensorFlow 发表于 10-21 14:07 194次 阅读

深度学习部分监督的实例分割环境

实例分割的任务是将图像中的像素分组为单个事物的实例,并用类标签(可计数的对象,如人、动物、汽车等,并....
的头像 TensorFlow 发表于 10-21 14:05 205次 阅读

数据分析如何中看又中用?送你一套方案大大提升工作效率

相信大多数永洪BI的用户都和我有着同一个苦恼,报告做得越来越复杂后,要找到某个组件变难了。只能点击到....
发表于 10-21 10:16 94次 阅读
数据分析如何中看又中用?送你一套方案大大提升工作效率

GPIB仪器控制设备使用GPIB接口将仪器集成到系统中

NI 致力于为半导体、电子、交通运输、航空航天与国防、学术等诸多领域的客户提供服务,主要产品包括数据....
的头像 易络盟电子 发表于 10-20 17:28 356次 阅读

曙光政务数据中台系统江苏工信厅重点首版产品公示

近日,江苏省工业和信息化厅发布了“2021年江苏省重点领域首版次软件产品征集拟推广首版次软件产品名单....
的头像 中科曙光 发表于 10-20 16:36 390次 阅读

简述ElasticSearch的实现

1.近实时搜索 1.1 实时与近实时 实时搜索(Real-time Search)很好理解,对于一个....
的头像 马哥Linux运维 发表于 10-20 14:45 295次 阅读

探究超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架,用于训练基于 Transform....
的头像 NVIDIA英伟达企业解决方案 发表于 10-20 09:25 372次 阅读

一种通过配方功能实现简单高效控制的方法解析

1 前言 物联网的应用大多基于对各种数据的采集和控制,而一般的工程项目中产生的数据数量都很庞大,若是....
的头像 广州虹科电子科技有限公司 发表于 10-20 09:13 438次 阅读
一种通过配方功能实现简单高效控制的方法解析

LTspice模型是由哪些部分组成的

LTspice模型是由哪些部分组成的?求解
发表于 10-20 06:17 0次 阅读

气体传感器BME688常见问题

在使用传感器的过程中,你是否有很多问号 ——在采样时需要强制空气进入BME688吗? ——由于数据是....
的头像 Bosch Sensortec 发表于 10-19 17:36 369次 阅读
气体传感器BME688常见问题

紫光集团重整最新消息:已确认千亿债权规模

天眼查数据显示,紫光集团公司已经于近日正式开始重整,并已确定债权规模1081.81亿元。并且在未来集....
的头像 lhl545545 发表于 10-19 14:47 724次 阅读

华为刘康:出面向5.5G目标网络架构 以电信云原生为基础

[阿联酋,迪拜,2021年10月13日] 今日,第六届5G核心网峰会(5G Core Summit ....
的头像 华为云核心网 发表于 10-19 14:41 333次 阅读

人工智能如何影响工业物联网

■ 或许这就是为什么在没有IIoT提供关键帮助的情况下,企业很难在工业4.0带来的大规模数字转型中能....
的头像 贸泽电子 发表于 10-19 10:31 1452次 阅读

雷诺汽车使用深度学习网络估计 NOx 排放量

雷诺汽车构建并训练了一个长短期记忆 (LSTM) 网络,该网络预测 NOx 水平的准确率达到了 85....
的头像 MATLAB 发表于 10-19 10:12 277次 阅读

技术和架构选择比以往更重要

在后疫情时代当企业开始尝试复兴和以全新的面貌示人,有一点变得显而易见:技术和架构选择比以往更重要。 ....
的头像 英特尔FPGA 发表于 10-19 09:56 239次 阅读

教你怎样去搜索淘宝API app店

教你怎样去搜索淘宝API app店?
发表于 10-19 09:01 0次 阅读

我国特高压交直流混联大电网正式运行

近年来,我国逐步形成特高压交直流混联大电网。可满足大容量直流和大规模新能源接入后提高电网仿真精度和效....
的头像 lhl545545 发表于 10-18 17:34 1062次 阅读

多功能移动环境监测仪的概述及特点

多功能移动环境监测仪介绍FT-BQX10 【风途】山东风途物联网科技有限公司气象站系列有FT-BQX....
发表于 10-18 16:57 68次 阅读

数据中台建设的价值和意义

让数据用起来,产生业务价值是数据中台建设的第一优先级。至于这个用起来的过程是否是自动化的,是否有大数....
发表于 10-18 16:52 59次 阅读

微信回应崩了 微信或将推出深度清理新功能

 今天上午微信大部分用户反映称微信图片打不开、已经无法收发图片、文件,目前微信官方已经对此做出回复称....
的头像 lhl545545 发表于 10-18 16:45 595次 阅读

用在解析云端数据的源码是怎样的

用在解析云端数据的源码是怎样的?如何去实现这种源码呢? ...
发表于 10-18 09:00 0次 阅读

华为创新性地推出“5G新通话”解决方案

在北京国家会议中心举行的2021年中国国际信息通信展览会上,由中国通信企业协会发起的“ICT中国(2....
的头像 华为云核心网 发表于 10-15 17:27 528次 阅读

华为发布SD-WAN逐包负载分担方案 提升带宽利用率

华为SD-WAN逐包负载分担方案,提升带宽利用率至90%,让您的广域网络更加高效。
的头像 华为产品资料 发表于 10-15 16:44 411次 阅读

教大家如何减小微量水分策略的结果中的误差

微量水分测定仪采用卡尔——菲休库仑法,对不同物质进行微量水分测定,是一种可靠的方法,微量水分测定仪成....
发表于 10-15 16:39 34次 阅读

详解工业液体密度测试步骤

业液体通常需要进行液体密度的测试来加以控制品质。行业内的测试仪就是搏仕的液体密度测试仪了。下面将演示....
发表于 10-15 16:27 30次 阅读

音频电路原理(双音频解码电子电路/TDA2822双声道功放电路/音频放大处理电路)

双音多频信号解码电路是目前在按键电话(固定电话、移动电话)、程控交换机及无线通信设备中广泛应用的集成....
发表于 10-15 16:08 1344次 阅读
音频电路原理(双音频解码电子电路/TDA2822双声道功放电路/音频放大处理电路)

浅析压敏(热敏)陶瓷粉末水分测试实验报告

厦门搏仕检测设备有限公司  www.lboshi.cn 18959266236 陶瓷粉末水分含量介绍....
发表于 10-15 15:57 35次 阅读

交换模式与路由模式有哪些异同点

交换模式是什么?路由模式又是什么? 交换模式与路由模式有哪些异同点? ...
发表于 10-15 09:35 0次 阅读