0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里达摩院刷新纪录,开放域问答成绩比肩人类水平

WpOh_rgznai100 来源:lq 2019-07-13 08:26 次阅读

近日,由阿里巴巴达摩院语言技术实验室研发的 Multi-Doc Enriched BERT 模型在微软的 MS MARCO 数 据评测任务,Passage Retrieval Task(文档检索排序)和 Q&A Task(开放域自动问答)中双双刷新记录,均取得榜首(截止 2019 年 6 月 26 日)。

MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛,包含 100 多万问题和近千万篇文档,参赛机构提供的 AI 模型需要从这些文档中找出 100 万个问题的正确答案。参与此次评比的还有微软、Facebook 等公司

与斯坦福大学发起的 SQuAD 挑战赛不同,MS MARCO 数据集模拟了搜索引擎中的真实应用场景,其难度更大,是机器阅读理解领域最有应用价值的数据集之一。MS MARCO 挑战赛需要参赛者提交的模型具备理解长文档多段落,并回答复杂问题的能力。对于每一个问题,MS MARCO 提供多篇来自搜索结果的网页文档,AI 需要通过阅读这些文档来回答用户提出的问题。但是,文档中是否含有答案,以及答案具体在哪一篇文档或段落中,都需 AI 自己来判断解决。

更难的是,有一部分问题无法在文档中直接找到答案,需要 AI 自由发挥做出判断。这对机器阅读理解提出了更高要求,需要 AI 具备综合理解多文档信息聚合生成问题答案的能力。

阿里的突破在于提出了基于“融合结构化信息 BERT 模型”的“深度级联机器阅读模型”, 可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据“自己的理解”回答问题。其中,阿里巴巴自研的算法成果——“深度级联机器阅读模型”已被 AAAI 2019 收录。

这是继 2018 年《Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering》(ACL 2018)在单文档阅读理解(斯坦福 SQuAD 挑战赛)取得的成果后,阿里巴巴研究团队在机器阅读理解领域的又一次突破。

机器阅读理解模型需要的输入是,业务应用中,枚举所有Document,计算并排序答案后给出最终答案显然不实际;另一方面,设计完全的 IR+MRC 的端到端(End2End)模型, 并辅以 Joint Trainning 在线上部署和实际使用时也会遭遇模型过大导致的性能瓶颈。因此,采用 Question 相关文档选择及文档中段落裁剪,并将有限且相关的备选段落交给 MRC 模型的方案是兼顾 Effectiveness 和 Efficiency 的核心策略。

阿里巴巴研究团队在 MS MARCO 上提交的 Multi-Doc Enriched BERT 模型,正是为了解决上述问题。团队先于2019年初提出了级联学习框架《A Deep Cascade Model for Multi-Document Reading Comprehension》(AAAI 2019),设计出深度级联机器阅读框架,该方案可有效降低召回阶段延时,并最大化答案准确率,算法在召回和排序上逐步从文档级别,段落级别演化,并在最后有限的备选段落中进行答案提取工作。

随后,研究团队提出了 Enriched BERT 模型,配合 Deep Cascade Model 框架,在多文阅读理解上超过了之前广泛使用的 IR Based MRC 模型。其中,负责提供语义表征的 Enriched BERT 模型除了在 MS MARCO 上作为语言模型帮助取得双料冠军外,在国际公认的自然语言理解标准数据集 GLUE Benchmark 上也取得了 Top3 的成绩(相关技术近期公开)。

特别在 MS MARCO Q&A Task 上,阿里方面称,较之前最先进的模型有 1.5% 的 Rouge-L 绝对提升。此外,在 MS MARCO Passage Retrieval Task 上,他们自研的 Enriched BERT Base 模型领先于其他模型。

阿里方面介绍,阿里 AI 可以像人类一样在阅读并理解后快速应对天马行空的问题。比如阿里 AI 可以在毫秒内读完 2 亿字的巨著, 相当于 5 本《大英百科全书》,并根据自己的理解快速回答 100 多万个不同领域的不同问题。例如 2014 年足球世界杯的冠军是谁?哈利波特在哪里上学的?什么是宇宙中最强的磁场?阿里 AI 可以分别迅速给出答案,这一研究水平可以应对高中英语阅读理解试题。

(这一AI能力已应用在阿里电子商务平台中)

对人类而言, 阅读是获取知识、不断进步的重要途径;对机器而言,同样如此。阿里 AI 这一成果揭示了机器在理解大量复杂材料以及回答现实生活中复杂问题方面的潜力。

据阿里方面介绍,这一技术已经开始大规模应用,例如去年在 Lazada 一次线上促销活动前, 阿里 AI 仅仅花了 30 毫秒就学会 25 个在印尼促销品销售中的所有规则,并成功应用到聊天机器人中,在活动中回答问题方面的准确率达到了 96%。

围绕电商服务、导购及任务助理为核心的智能人机交互产品,在活动,规则,指南等场景中替代人工构建知识,降低人工成本,提升认 知智能能力,为海量的活动规则咨询提供解答服务。在近年来的双 11,双 12 场景及最近的 618 大促中维护效率提升 50%,相比通用方案解决率提升 10%。同时,这一技术也活跃在政务场景如市 ⺠办事咨询中,基于浙江省百万级办事指南库,”身份证到哪里换“这类咨询从等待人工回复时⻓ 2.5 天提升到了秒级响应。

以多文档开放问答场景的机器阅读为代表的语言理解技术是自然语言处理的基础能力之一,在这些基础能力之上,阿里巴巴可围绕该技术构建一系列问答类应用。在产业落地方面,问答平台及聊天机器人产 品等会伴随这项技术丰富其自身能力,降低人力成本提高效率;对于消费者来说,智能客服以后可以帮助 消费者在购物时有更好的体验。

当前,无论是在工业界还是学术界,各方研究团队都在机器阅读理解上投入大量精力。未来,除了对话和问答场景,在搜索场景中,搜索引擎将不仅仅是返回用户相关的链接和网⻚,而是通过对互联网上的海量资源进行阅读理解,直接得出答案返回给用户。

附:级联机器阅读理解模型详解

阿里方面提供的资料显示,级联学习可以通过在不同阶段采用不同的特性选择和样本筛选策略达到效果和性能的平衡,阿里巴巴提出的多文档机器阅读模型首先利用简单特征和排序模型过滤掉与问题无关的样本和段落,并得到一组候选文本,供后续从中提取答案。然后将生成的段落传递给基于注意力的深层 MRC 模型(不同于传统多层 MRC,阿里巴巴研究团队在近期公布的 Google BERT 进行了进一步的创新优化,并设计了基于 Enriched BERT 的新 MRC 模型),该模型用于提取单词级别的实际答案跨度。

为了进一步提升模型效果,该模型使用文档提取和段落提取作为辅助任务,以快速减少搜索空间的范围。重要的是,这三个任务在统一的深层 MRC 模型中共享同一个底层语言模型(Enriched BERT),这不仅可以实现粗到细的演绎过程,还可以通过迭代有效地学习更好的模型。

如上图所示,系统架构由三个核心模块组成,分别负责文档检索、段落检索和答案提取。对于前两个功能中的每一个功能,都定义了一个排序函数和一个提取函数。排序函数用于无关内容的过滤(Efficiency)。提取函数将文档提取和段落提取作为辅助任务并与最终答案提取模块(机器阅读理解) 联合优化,以提高性能(Effectiveness)。所采用的方案与以前的方法相比,关键的改进是每个模块的本地排序功能在成本和复杂性上逐步增加,在整个计算过程中保持效率和有效性竞争因素之间的平衡。

在实验中(备注:AAAI 2019 的实验中不包含 Enriched BERT 结果,后续公布),模型开发人员首先用 TriviaQA Web 和 DuReader 基准数据集验证了在离线测试中的有效性,这两套数据集通常被用作多文档 MRC 评测的标准数据集。该基准数据的结果表明,研究人员所提出的模型明显超过了以前最先进的模型, 在每个包含两个段落四个文档集的场景中性能最佳;此外,通过额外的辅助任务在初期排序中消除不相关的文档和段落,时间成本被证明是可以降低的,可以在不显著影响最终答案提取效果的情况下完成。

经过验证,团队使用阿里小蜜客服机器人系统进行了在线环境测试,该系统旨在帮助阿里巴巴集团电子商务平台解决每日约 200 万名访问者提出的问题。这些测试表明,该模型能够以低于 50 微秒的速度满足请求,同时也提高了有效性标准。

上述结果表明,通过减少无关内容的“噪声”,该模型可以大大改善现有的最先进在线答疑系统标准, 同时更好地平衡提取过程各个阶段效率和有效性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26410

    浏览量

    264018
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1571

    浏览量

    46432
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47674

原文标题:阿里达摩院刷新纪录,开放域问答成绩比肩人类水平,超微软、Facebook

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里云在云栖大会发布RPA最新3.4版本,将与达摩联合探索人工智能领域

    9月26日,在2019年杭州云栖大会上,阿里云发布了RPA最新V3.4版本,全新升级了增加诸如录屏审计、JAVA应用录制能力、达摩OCR内置组件、语法检查与智能提示能力增强等功能。RPA全名
    发表于 09-29 15:06

    认识一下阿里的AI殿堂-达摩 精选资料分享

    国内三大科技领头羊BAT,BT我们已经介绍过,今天随我一起揭开阿里巴巴技术背后的神秘面纱。1达摩的诞生1.1 冠名与成立2017年10月11日,第八届云栖大会在杭州拉开了帷幕,这次大会上,马云重磅
    发表于 07-28 08:10

    东芝刷新纪录 亏损9500亿日元

    处于经营重组期的日本东芝公司公布了2016财年合并报表暂定值,预期净亏损达9500亿日元(约合人民币580亿元),亏损额较上财年净亏损4600亿日元的最差纪录继续扩大。资不抵债的估算金额为5400亿日元。
    发表于 05-16 09:54 458次阅读

    阿里要建“达摩院”,马云、胡晓明、张建峰他们这样说

    马云对达摩院下了三个原则:“达摩院要活得比阿里巴巴长,有一天即使阿里巴巴不在了,达摩院还要继续存在,今天
    发表于 10-12 10:15 2460次阅读

    机器阅读理解领域顶级赛事SQuAD刷新排名,阿里打破世界纪录

    1月13日下午消息,两天前,由斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD刷新了排名,AI的阅读能力历史上首次超越人类阿里巴巴称,其凭借82.440的精准率打破了世界纪录,并且
    发表于 01-14 05:58 2327次阅读

    今年黑五海信再次刷新纪录 65万台4K高清电视被美国消费者抢购一空

    继去年海信“黑色星期五”购物狂欢节大卖52万台4K电视创下纪录之后,今年“黑五”海信再次刷新纪录,65万台4K高清电视被美国消费者抢购一空,甚至不少卖场的消费者为抢购海信电视都差点打起来了。在这两天的网络上,一些抢购海信电视的视频被不断热传,让不少国内消费者
    发表于 11-26 17:35 1445次阅读

    随着激光电视价格不断刷新纪录,替代大尺寸液晶电视的时机终于来了吗?

    近日,激光电视价格不断刷新纪录,继极米科技发布万元级1080p激光电视(不含幕布)之后,海信也发布了两万元以内的4K激光电视(含幕布),激光电视价格下滑的趋势不可阻挡。
    发表于 08-22 16:15 3038次阅读

    海信“黑五”刷新纪录 65万台4K高清电视被美国消费者抢购一空

    继去年海信“黑色星期五”购物狂欢节大卖52万台4K电视创下纪录之后,今年“黑五”海信再次刷新纪录,65万台4K高清电视被美国消费者抢购一空,甚至不少卖场的消费者为抢购海信电视都差点打起来了。在这两天的网络上,一些抢购海信电视的视频被不断热传,让不少国内消费者
    发表于 11-26 17:21 1291次阅读

    阿里达摩院自然语言理解技术夺冠 AI技术将进一步落地发展

    3月3日消息,在全球自然语言处理领域顶级赛事GLUE Benchmark中,阿里巴巴达摩院以平均分90.3分的成绩夺冠,刷新自然语言理解技术世界纪录
    发表于 03-03 11:46 481次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>达摩</b>院自然语言理解技术夺冠 AI技术将进一步落地发展

    阿里巴巴达摩刷新自然语言理解技术世界纪录 将推进AI技术在各领域的落地

    3月3日消息,在全球自然语言处理领域顶级赛事GLUE Benchmark中,阿里巴巴达摩院以平均分90.3分的成绩夺冠,刷新自然语言理解技术世界纪录
    的头像 发表于 03-03 13:56 2523次阅读

    《Beat Saber》卖出200万份 在虚拟现实社区中不断的刷新纪录

    3月18日消息,Facebook宣布《Beat Saber》在所有VR平台卖出了超过200万份。这款游戏在虚拟现实社区中不断的刷新纪录,同时它成功的为艺人和粉丝之间搭建了彼此之间联系的平台:下载内容卖出来超过1000万份单曲。
    发表于 03-18 10:24 553次阅读

    特斯拉刷新纪录:Model S续航里程提高至409英里

    (all-electric vehicles)的新纪录。 此后,Lucid 发布了空气电动轿车基础版,续航里程 406 英里,价格与特斯拉 Model S 相当。Mo
    的头像 发表于 11-22 09:11 1475次阅读

    阿里达摩院都在研究什么

    自从阿里四年前花费1000亿成立达摩院以来,外界对达摩院的质疑不断,那么到底在研究什么?
    的头像 发表于 03-30 17:12 2528次阅读

    扩博智能成功刷新国内风机巡检中单人单机效率新纪录

    近期,扩博智能飞手在执行新疆昌吉回族自治州某风场的风机巡检任务时,成功刷新扩博智能在国内风机巡检中的单人单机效率新纪录,实现了单人、单台无人机设备在10小时内巡检17台风机的新成绩
    的头像 发表于 06-22 11:38 2501次阅读

    中国协作机器人销售量曝光!一路狂飙刷新纪录

    中国协作机器人销售量曝光!一路狂飙刷新纪录
    的头像 发表于 05-23 10:55 707次阅读
    中国协作机器人销售量曝光!一路狂飙<b class='flag-5'>刷新纪录</b>!