0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SemEval 2022: 多语种惯用语识别评测冠军系统简介

深度学习自然语言处理 来源:哈工大讯飞联合实验室 作者:哈工大讯飞联合实 2022-06-07 09:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在前不久落下帷幕的第十六届国际语义评测比赛(The 16th International Workshop on Semantic Evaluation,SemEval 2022)中,哈工大社会计算与信息检索研究中心(HIT-SCIR)与哈工大讯飞联合实验室的联合团队在多语种惯用语识别任务子赛道SubtaskA(one-shot)中获得冠军。本期我们将对这个任务的夺冠系统进行简要介绍,更多具体细节请参考我们的论文。

论文标题:HITat SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection

论文作者:初征,杨子清,崔一鸣,陈志刚,刘铭

论文链接:http://arxiv.org/abs/2204.06145

7cdad7dc-e589-11ec-ba43-dac502259ad0.png

7d177a0c-e589-11ec-ba43-dac502259ad0.png

任务介绍

Task 2 Subtask A子赛道是跨语言惯用语检测任务。任务给出多种语言的含多字短语的语句,参赛队伍需要利用模型判断目标句子中的多字短语的使用方法是惯用语用法 (Idiomatic)还是字面用法(Literal)。任务共覆盖三种语言,包括英语、葡萄牙语和加利西亚语。与普通的惯用语检测任务相比,该评测更加强调考察模型的跨语言迁移能力。在zero-shot设置下,不提供加利西亚语的训练数据,需要模型通过英语和葡萄牙语的数据集进行zero-shot迁移;在one-shot下提供少量加利西亚语的训练数据,需要模型具备在不同语言之下良好的few-shot迁移能力。

图1是任务数据示例。在第一句中,big fish为字面义,表示大鱼;第二句中,big fish为隐含义(惯用语),表示大人物。模型需要利用训练数据对这两种用法做出区分。

7d3d43ae-e589-11ec-ba43-dac502259ad0.png

图1:SemEval-2022 Task2 SubtaskA任务数据示例

系统介绍

提交的系统使用XLM-RoBERTa作为编码器,在预处理过程中对训练数据的惯用语短语(MWE)进行特殊标记,在训练过程中使用R-Drop作为辅助训练目标,在训练结束后,根据训练数据的统计信息制定了启发式规则对模型预测结果进行校正。此外还尝试了数据增强、对比学习辅助训练、对抗训练等方法,整体结构如图2所示:

1. 预处理:对输入的样本进行截断、标记MWE、数据增强等操作。

2. 模型训练:采用XLM-R作为基模型,以cross-entropy损失作为主要训练目标,以R-drop等方式优化辅助目标。

3. 后处理:根据训练数据特征对模型预测结果进行校正。

下面将针对部分主要优化技巧进行简要介绍。

7d8fe2e4-e589-11ec-ba43-dac502259ad0.png

图2:SemEval-2022 Task2 Subtask A 系统结构

1、数据预处理

数据截断:为了尽可能地减少截断所产生的文本信息丢失,在设定句子最大长度前对长度信息进行了统计,最终确定使用128作为最大长度可保证绝大多数句子不被截断。

短语标记:任务的每一条数据提供了目标句子中要被预测的惯用语短语,为了能够让模型能够关注到惯用语,对句子中的惯用语使用特殊符号进行标记。例如,包含惯用语bigfish的文本 caught some bigfish along the way 将被标记为caught some[SEP] big fish [SEP] along the way。由于预训练对于命名实体具有识别能力,而在该任务的数据中,命名实体几乎都进行首字母大写变形并且标注为非惯用语用法,在后续的实验中改善了惯用语标注方法,仅标注未经过变形的惯用语短语。对比实验结果如图3所示,I表示标记惯用语,C表示使用上下文文本。对比w/ I 和 w/o I的实验,可验证这一改动能够提高性能效果。

上下文信息:此外,我们还发现,不使用任务提供的额外上下文文本数据,而仅使用包含惯用语的句子(w/o C),能取得更优的效果,如图3第三行所示。原因可能为不包含上下文文本数据的短文本能使模型更聚焦于待判别的惯用短语。

7deafe5e-e589-11ec-ba43-dac502259ad0.png

图3: 上下文以及标注惯用语对结果的影响

2、模型训练

训练过程使用XLM-RoBERTa作为编码器,接池化层和softmax分类器。对不同池化方法进行了实验,结果表明池化方法对最终结果没有显著影响,为了简便,使用[SEP]作为句子向量表示。训练过程中尝试了多种辅助手段,包括R-Drop、对抗训练、数据增强、对比学习辅助目标等。实验结果表明,R-Drop以及对抗训练能够显著提高模型表现,并且相较于对抗训练,R-Drop能够取得更大的性能提升,结果详见下一节。

7e1468ac-e589-11ec-ba43-dac502259ad0.png

图4:R-Drop示意图

3、后处理

在训练结束后,根据训练数据的分布统计信息制定了启发式规则。对于在训练集中仅出现过一次的短语,因缺乏不同标签对应的训练数据,我们采用训练集中仅出现过的标签作为预测标签,以减少训练集的人工标记偏差对结果的影响。

实验结果

模型的最终效果及消融实验如图5所示。

7e66fc70-e589-11ec-ba43-dac502259ad0.png

图5:不同方法对结果的影响

标记MWE(mark MWE)可以同时提升zero-shot和one-shot效果;我们还尝试了对比学习方法,然而在zero-shot和one-shot上均没有提升;AEDA是一个简单的操作标点符号的数据增强策略,对zero-shot有一定帮助;在两种提升模型稳定性的方法(对抗训练和R-drop)中,R-drop有更好的表现。最后,后处理策略对训练集中出现的偏差做了很好的校正。显著地提升了效果。

7e951858-e589-11ec-ba43-dac502259ad0.png

多语种惯用语识别任务子赛道Subtask A(one-shot)最终榜单:HIT-SCIR与HFL联合团队排名第一

结论

基于多语言预训练模型,我们构建了一个多语言惯用语识别系统。通过对输入格式、模型训练方式、预测结果后处理等方面的优化,最终系统整体性能较baseline有较为显著的提升,并在one-shot赛道上取得最优成绩。在后续研究中,可尝试探索如何让预训练模型利用训练数据之外的语料,如惯用语词典等,以进一步提升预测效果,并降低对标注数据资源的需求,发挥多语言模型的zero-shot能力。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143353
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95020

原文标题:竞赛 | SemEval 2022: 多语种惯用语识别评测冠军系统简介

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    声智科技荣获全国口译大赛人工智能赛道冠军

    近日,第十四届全国口译大赛(英语)暨第十八届多语种全国口译大赛人工智能赛道总决赛在京圆满落幕。声智科技凭借自主构建的声学人工智能模型,从近千家参赛单位中脱颖而出,斩获人工智能赛道同声传译第一名。
    的头像 发表于 04-13 09:27 544次阅读

    NI-PCIE-8510 在Ni-linux-rt系统上怎样可以被正确识别

    有一张PCIE-8510的CAN卡,目的是想在NI-linux-rt(2022Q3)系统上使用;已查过硬件兼容性,该CAN卡兼容2022Q3版本的NI-linux-rt系统;对该
    发表于 04-03 15:35

    京东多语言质量解决方案

    一、业界多语言面临的通用挑战是什么 做这个事之前,我们先看看业界做了什么。 •阿里巴巴全球化测试技术介绍 •蚂蚁全球化无线端质量解决方案 •谈谈多语言测试 总结下来,需要面临3个通用
    的头像 发表于 01-13 16:18 1070次阅读
    京东<b class='flag-5'>多语</b>言质量解决方案

    给智能门锁“装个移动硬盘”:广州唯创电子WTV语音芯片外置SPI Flash方案破解多语种语音存储困局

    厂家,以其创新的WTV系列语音芯片外置SPIFlash方案,如同给门锁配备了一个“海量移动硬盘”,彻底破解了智能门锁的多语种语音存储困局。一、行业痛点:智能门锁的“
    的头像 发表于 11-17 07:43 908次阅读
    给智能门锁“装个移动硬盘”:广州唯创电子WTV语音芯片外置SPI Flash方案破解<b class='flag-5'>多语种</b>语音存储困局

    江苏省委书记一行到访思必驰调研

    大模型开启了人工智能发展的新阶段。在思必驰,信长星了解多语种语言大模型、人机对话技术等研发应用,以及向汽车、家电、新能源等行业提供产品解决方案情况。他强调,要推动面向各行业各领域的大模型垂直应用,促进人工智能与实体经济深度融合。
    的头像 发表于 11-11 10:37 937次阅读

    AR智能眼镜定制_ar眼镜PCBA硬件设计与AI赋能

    千问、DeepSeek、豆包等),可以实现智能提词、多语种实时翻译、AI识物、导航、消息提醒和支付等功能,为用户提供更加智能化的交互体验。
    的头像 发表于 11-05 20:27 909次阅读
    AR智能眼镜定制_ar眼镜PCBA硬件设计与AI赋能

    声智科技多语种AI翻译耳机亮相中美产业交流会

    近日,由商务部投资促进事务局与北京市海淀区人民政府联合主办的“共赴新未来——中美地方产业交流会”在北京中关村展示中心成功举办。声智科技作为人工智能与声学融合领域的领先企业,应邀参会并展示了其面向全球市场的AI声学产品矩阵,彰显出中国科技企业在“出海”过程中日益增强的技术话语权与生态整合能力。
    的头像 发表于 10-14 09:09 936次阅读

    NVIDIA推出多语种语音AI开放数据集与模型

    新发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
    的头像 发表于 09-23 15:34 1141次阅读

    云知声多项业务营收大涨

    依托山海大模型,云知声不断开拓阵地,开发了面向东盟等海外市场和国内方言市场的语音大模型,模型显著提升了在多语种、多方言环境下的语音识别、语义理解和高质量语音生成能力,改善了多语言、语种
    的头像 发表于 09-10 15:44 829次阅读

    语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    与一致性校验,实现高精度、低成本的小语种OCR训练数据生成。该方案将数据准备周期 从数周缩短至数小时 ,为小语种模型的快速迭代与冷启动提供了全新范式 一、引言:小语种OCR的“数据之困” 在跨境支付、
    的头像 发表于 08-29 11:26 3879次阅读
    小<b class='flag-5'>语种</b>OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1374次阅读

    传音斩获WMT 2025国际机器翻译大赛四项冠军

    佳绩,分别在阿萨姆语(Assamese)、曼尼普尔语(Manipuri)、卡西语(Khasi)、米佐语(Mizo)四个语种的机器评测中荣获冠军
    的头像 发表于 08-06 18:21 1340次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    、高效会议记录、多语种即时翻译等核心领域实现重大技术突破,致力于为终端用户带来更自然、高效、私密的语音交互体验。
    的头像 发表于 08-04 11:43 1767次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    1Whisper简介Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别
    的头像 发表于 07-25 15:21 994次阅读
    EASY EAl Orin Nano(RK3576) whisper语音<b class='flag-5'>识别</b>训练部署教程

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASR、TTS等技术模块,构建覆盖泰语、俄语、韩语、日语等多语种的语音交互解决方案,助力其海外车型实现无障碍人机交互,更以技术突破重新定义车载语音交互的边界。
    的头像 发表于 07-11 14:00 1311次阅读