0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SDNet成为目前世界上唯一在CoQA领域内数据集上F1得分超过80%的模型,达到80.7%

DPVg_AI_era 来源:lq 2018-12-18 09:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软语音与对话研究团队开发的SDNet,在面向公共数据集CoQA的问答对话系统模型性能挑战赛中刷新最佳性能纪录,成功夺冠!SDNet成为目前世界上唯一在CoQA领域内数据集上F1得分超过80%的模型,达到80.7%。

近日,微软语音与对话研究团队在斯坦福机器对话式问答数据挑战赛CoQA Challenge中夺冠,并且单模型和集成模型分别位列第二和第一,让机器阅读理解向着人类水平又靠近了一步。

这也是继语音识别、机器翻译等成果之后,微软取得的又一项好成绩。

微软研究人员将自注意力模型和外部注意力相结合,并且用新的方法整合了谷歌BERT语境模型,构建了一个基于注意力的会话式问答深度神经网络SDNet,更有效地理解文本和对话历史。

一直以来,微软研究人员都有在机器阅读理解中使用自注意力模型加外部注意力的想法,终于在这项工作中首次得以实现。

CoQA竞赛:更接近人类对话的机器问答挑战赛

CoQA是面向建立对话式问答系统的大型数据集,CoQA挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低(CoQA的发音是“扣卡”)

CoQA包含12.7万个问题和答案,这些内容是从8000多个对话中收集而来的。每组对话都是通过众筹方式,以真人问答的形式在聊天中获取的。

CoQA的独特之处在于:

数据集中的问题是对话式的

答案可以是自由格式的文本

每个答案还附有对话段落中相应答案的理由

这些问题收集自七个不同的领域

CoQA 数据集旨在体现人类对话中的特质,追求答案的自然性和问答系统的鲁棒性。在CoQA 中,答案没有固定的格式,在问题中频繁出现指代词,而且有专门用于跨领域测试的数据集。

CoQA具备了许多现有阅读理解数据集中不存在的挑战,比如共用参照和实用推理等。因此,CoQA Challenge 也更能反映人类真实对话的场景。

CoQA 与 SQuAD 两个数据集对比:SQuAD 中约一半都是what型,CoAQ种类更多;SQuAD中没有共识推断,CoQA几乎每组对话都需要进行上下文理解推断;SQuAD中所有答案均可从原文本中提取,CoQA中这一比例仅为66.8%。

此前,斯坦福大学的自然语言处理小组已经先后发表了 SQuAD 和 SQuAD2.0 数据集。该数据集包含一系列文本和基于文本的问题、答案。针对该数据集提出的任务要求系统阅读文本后判断该问题是否可以从文本中得出答案,如果可以回答则从文本中截取某一片段做出回答。

目前,微软语音与对话研究已经把他们在CoQA Challenge上夺冠成果的预印本论文发在了Arxiv上。下面结合论文内容,对该团队的实验方法和研究成果做简单介绍。

结合自注意力模型和外部注意力,更有效理解文本和对话历史

在本文中,我们提出了SDNet,一种基于语境注意力的会话问答的深度神经网络。我们的网络源于机器阅读理解模型,但具备几个独特的特征,来解决面向对话的情境理解问题。

首先,我们在对话和问题中同时应用注意力和自我注意机制,更有效地理解文章和对话的历史。其次,SDNet利用了NLP领域的最新突破性成果:比如BERT上下文嵌入Devlin等。

我们采用了BERT层输出的加权和,以及锁定的BERT参数。我们在前几轮问题和答案之前加上了当前问题,以纳入背景信息。结果表明,每个部分都实现了显著提高了预测准确性的作用。

我们在CoQA数据集上对SDNet进行了评估,结果在全局F1得分方面,比之前最先进模型结果表现提升了1.6%(从75.0%至76.6%)。整体模型进一步将F1得分提升至79.3%。此外,SDNet是有史以来第一个在CoQA的领域内数据集上表现超过80%的模型。

实验方法与衡量指标

我们在CoQA 上评估了我们的模型。在CoQA中,许多问题的答案需要理解之前的问题和答案,这对传统的机器阅读模型提出了挑战。表1总结了CoQA中的领域分布。如图所示,CoQA包含来自多个领域的段落,并且每个段落的平均问答超过15个。许多问题需要上下文的理解才能生成正确答案。

对于每个域内数据集,开发集中有100个段落,测试集中有100个段落。其余的域内数据集位于训练集中。测试集还包括所有域外段落。

基线模型和指标

我们将SDNet与以下基线模型进行了比较:PGNet(具有复制机制的Seq2Seq)、DrQA、DrQA +PGNet、BiDAF ++ Yatskar(2018)和FlowQA Huang等。 (2018)。与官方排行榜一致,我们使用F1作为评估指标,F1是在预测答案和基本事实之间的单词级别的精度上的调和平均。

结果

上表所示为SDNet和基线模型的性能对比。如图所示,使用SDNet的实现结果明显好于基线模型。具体而言,与先前的CoQA FlowQA模型相比,单个SDNet模型将整体F1得分提高了1.6%。 Ensemble SDNet模型进一步将整体F1得分提升了2.7%,SDNet是有史以来第一个在CoQA的领域内数据集上表现超过80%的模型(80.7%)。

上图所示为开发集随epoch变化的F1得分情况。SDNet在第二个epoch之后的表现超越了两个基线模型,并且仅在8个epoch后就实现了最优秀的表现。

消融研究 (Ablation)

我们对SDNet模型进行了消融研究,结果在上表中显示。结果表明,正确使用上下文嵌入BERT是至关重要的。虽然移除BERT会使开发集的F1得分降低6.4%,但在未锁定内部权重的情况下加入BERT会使得F1得分降低13%。

上下文历史

在SDNet中,我们将当前问题与前N轮问题和真实答案前置一致,来利用对话历史记录。我们试验了不同的N值的效果,并在表4中列出了结果。试验显示,我们的模型的性能对N的设置不是非常敏感。最后,我们的最终模型设置N = 2。

未来:让模型更接近于真人对话场景

我们提出了一种新的基于情境注意的深度神经网络SDNet,以解决对话问题的回答任务。通过在通过和对话历史上利用注意力和自我关注,该模型能够理解对话流并将其与消化段落内容融合在一起。

此外,我们融入了自然语言处理领域 BERT的最新突破,并以创新的方式利用它。与以前的方法相比,SDNet取得了卓越的成果。在公共数据集CoQA上,SDNet在整体F1指标得分上的表现比之前最先进的模型高1.6%。

纵观CoQA Challenge排行榜,从今年8月21日到11月29日,短短3个月时间里,机器问答对话的总体成绩就从52.6提升到79.3,距离人类水平88.8似乎指日可待。

“最后一公里往往是最难的,很难预测机器能否达到人类水平。”论文作者之一、微软全球技术Fellow、负责微软语音、自然语言和机器翻译工作的黄学东博士告诉新智元。

未来,他们打算将SDNet模型应用于具有大型语料库或知识库的开放域中,解决多循环问答问题,这类问题中,目标段落可能是无法直接获得的。这和人类世界中的问答的实际情况可能更为接近。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6750

    浏览量

    108069
  • 神经网络
    +关注

    关注

    42

    文章

    4840

    浏览量

    108141
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26259

原文标题:微软创CoQA挑战新纪录,最接近人类水平的NLP系统诞生

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI大模型微调企业项目实战课

    的战略问题浮出水面:过度依赖公有云的通用大模型,意味着企业的核心数据、商业机密乃至业务逻辑,都时刻暴露在潜在的隐私泄露和“数据断供”风险之中。在这样的时代背景下,“自主可控”不再是
    发表于 04-16 18:48

    【瑞萨AI挑战赛】手写数字识别模型RA8P1 Titan Board的部署

    手写数字识别模型RA8P1 Titan Board的部署 手写数字识别是计算机视觉领域的经典入门任务,而瑞萨RA8P
    发表于 03-15 20:42

    微软携手梅赛德斯AMG马石油F1车队构建数字化智慧引擎

    F1赛车的胜负,往往藏在十分之秒中。微软与梅赛德斯-AMG马石油F1车队达成深度合作伙伴关系,从工厂的精密模拟,到赛道的实时决策,微软以Microsoft Azure(国际版)及GitHub开发工具等前沿技术构建数字化智慧引擎
    的头像 发表于 03-12 11:29 500次阅读

    泰凌微:布局端侧AI,产品支持谷歌LiteRT、TVM开源模型

    。   公司发布的基于TL721X系列芯片的TL-EdgeAI平台,支持谷歌LiteRT、TVM等开源模型,是目前世界上功耗最低的智能物联网连接协议平台。其芯片已在谷歌(Google)的Pixel Bud Pro 2智能耳机方案中被采用。公司将继续深化与谷歌的合作关系。
    的头像 发表于 12-15 08:21 1w次阅读

    阿斯顿马丁沙特阿美F1车队进站背后的Arm技术支持

    世界级方程式(Formula One,以下简称 F1)锦标赛中,两秒钟足以决定比赛胜负。次完美的进站需要极其精准的协同配合,从更换车轮到赛车驶出,每个动作都堪称瞬间完成。但如此高
    的头像 发表于 12-04 16:50 1115次阅读

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模、高质量的感知数据目前业界常用的
    的头像 发表于 11-07 17:35 5494次阅读
    SimData:基于aiSim的高保真虚拟<b class='flag-5'>数据</b><b class='flag-5'>集</b>生成方案

    Arm平台助力阿斯顿马丁沙特阿美F1车队风洞中实现边缘智能

    世界级方程式(Formula One,以下简称 F1)锦标赛中,登上领奖台与屈居人后之间的差距,往往仅源于些许细节的差别,比如小翼的角度优化,或是扩散器边缘的细节打磨。但从概念设
    的头像 发表于 11-05 11:17 964次阅读

    提高RISC-VDrystone测试中得分的方法

    Drystone 是种常用的计算机性能基准测试,主要用来测量整数(非浮点)计算性能。 影响 RISC-V Drystone 测试中得分的因素主要有以下几个: 处理器核心设计:处理器核心
    发表于 10-21 13:58

    世界上最小的传感器有多小 头发丝的十万分之到百万分之

    世界上最小的传感器有多小? 世界上最小的传感器可以达到人类头发丝的十万分之到百万分之。据央视报道,
    的头像 发表于 09-22 11:17 1490次阅读

    模型时代,如何推进高质量数据建设?

    高质量数据,即具备高价值、高密度、标准化特征的数据集合。 AI领域,高质量数据
    的头像 发表于 08-21 13:58 983次阅读

    上海贝岭650V80A IGBT光伏逆变器的应用

    ,其中最主要的发电应用有光热发电、光伏发电等;太阳能的多种应用中,光伏发电是目前世界上最为普遍的种方式。
    的头像 发表于 08-11 15:26 5965次阅读
    上海贝岭650V<b class='flag-5'>80</b>A IGBT<b class='flag-5'>在</b>光伏逆变器<b class='flag-5'>上</b>的应用

    k230使用yolov5检测图像卡死,怎么解决?

    0.99以上 模型转换指令 再将该模型放到k230设备使用yolo大作战中yolov5检测示例,检测就会卡死,打印出的检测结果会超过1
    发表于 08-11 07:41

    F1宣布与联想集团深化合作

    包括F1在内的体育赛事不仅是速度、体能的较量,更是尖端技术的极限测试场。置身于F1争分夺秒的严苛环境,其背后的设备能力与澎湃算力也迎来了另场“竞速”,而我们,实战中经受住了这场考验
    的头像 发表于 07-07 11:12 1192次阅读

    F1®与亚马逊云科技联合推出全新在线体验 车迷可亲手打造专属赛道

    北京 ——2025 年 5 月 22 日 世界级方程式锦标赛®(以下简称:F1®)在其成立75周年之际,与亚马逊云科技联合推出了全新数字互动体验,使其车迷可自主创建、定制并分享其专属F1
    发表于 05-22 11:40 1551次阅读

    AD7768与STM32F407进行数据通信,SPI1读取到的数据不完整,整体数据字节出现偏移,怎么解决?

    进行数据通信,我们采用所有数据都在DOUT0输出的模式。 然后使用DRDY信息来进行数据中断触发。 但是目前存在问题:SPI
    发表于 04-24 06:40