0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如果把中学生的英语阅读理解选择题让AI来做,会做出什么水平?

DPVg_AI_era 来源:lp 2019-04-19 10:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果把中学生的英语阅读理解选择题让AI来做,会做出什么水平?近日,上交大团队训练的“双向协同匹配网络”(DCMN)取得了74%的正确率。尽管和人类学生相比只能算马马虎虎,但对AI来说,这已经达到了目前的最高水平。

目前,在英语考试的阅读理解上,AI虽然无法击败更有能力的人类学生,但它仍然是衡量机器对语言理解能力的最佳量度之一。

近日,上海交通大学的赵海团队对AI模型进行了超过25000次英语阅读理解测试训练。训练材料和中国现行英语水平考试的阅读理解形式类似,每篇文章大约200到300个词,文后是一系列与文章内容相关的多项选择题。这些测试来自针对12至18岁中国学生的英语水平考试。

虽然这些问题有些可以在文中找到答案,但其中一半以上的题目仍需要一定程度的推理。例如,有些问题会要求从四个选项中选出文章的“最佳标题”。在训练结束后,AI参加了测试,其中包括1400次以前从未见过的考试。综合得分为74分(百分制),优于之前的所有机器测试。

上交大的AI系统可以识别与问题相关的文章相关部分,然后选出在含义上和逻辑上最相似的答案。在测试中排名第二的是腾讯的AI系统,在同一次考试中得分为72分。腾讯的AI学会了比较每个选项中包含的信息,并将不同选项间的信息差异作为提示,在文章中寻找证据。

目前最厉害的AI,阅读理解只能得个C+

尽管在测试中分数处于领先,赵海团队仍在努力提高AI系统的能力。“如果从真人学生的视角来看,我们的AI的表现也就是一般水平,最多得个C+,”他说。“对于那些想进入中国优秀大学的学生来说,他们的目标是90分。”

为了提高分数,团队将尝试修改AI,以便理解嵌入在句子结构中的信息,并为AI提供更多数据,扩大其词汇量。

如何理解人类的语言,一直是AI领域的一个主要问题,因为这种理解通常是不精确的,这个问题涉及机器难以掌握的隐含语境信息和社会线索问题。

卡内基梅隆大学的GuokunLai表示,目前我们仍不清楚AI在学习我们的语言时会遵循什么规则,“不过在阅读了大量的句子和文章之后,AI似乎能够理解我们的逻辑。”

该研究的相关论文已经发表在Arxiv上,以下是论文的主要内容:

让AI做阅读理解是一项具有挑战性的任务,需要复杂的推理过程。AI需要从一组候选答案中选择正确的答案。本文提出双重协同匹配网络(DCMN),该网络可以双向地模拟通道,问题和答案之间的关系。

与仅就问题感知或选择性文章表示进行计算的现有方法不同,DCMN能够计算文章感知问题表示和文章感知答案表示。为了证明DCMN模型的有效性,我们在大型阅读理解数据集(即RACE)上评估了模型。结果表明,该模型达到了目前AI阅读理解的最高水平。

机器阅读理解和问答已经成为评估自然语言处理和理解领域人工智能系统进展的关键应用问题。计算语言学界对机器阅读理解和问答的一般问题给予了极大的关注。

本文主要关注选择题阅读理解数据集,如RACE,该数据集中每个问题后都带有一组答案选项。大多数问题的正确答案可能不会在原文中完全复现,问题类型和范围也更加丰富和广泛,比如涉及某一段落的提要和对文章作者态度的分析。

这需要AI能够更深入地了解文章内容,并利用外部世界知识来回答这些问题。此外,与传统的阅读理解问题相比,我们需要充分考虑通过文章-问题-答案三者之间的关系,而不仅仅是问题-答案的配对。

新模型DCMN:在文章、问题、答案三者之间建立联系

DCMN模型可以将问题-答案与给定文章内容进行双向匹配,利用了NLP领域的最新突破——BERT进行上下文嵌入。在介绍BERT的原论文中提到,对应于第一输入令牌(CLS)的最终隐藏向量被用作聚合表示,然后利用分类层计算标准分类损失。

我们认为这种方法太粗糙,无法处理文章-问题-答案的三者关系组合,因为这种方法只是粗略地将文章-问题的联系作为第一序列,将问题作为第二序列,没有考虑问题和文章内容之间的关系。因此,我们提出了一种新方法来模拟文章、问题和候选答案之间的关系。

使用BERT作为编码层,分别得到文章、问题和答案选项的上下文表示。

构造匹配层以获得文章-问题-答案三者之间匹配表示,对问题在文章中对应的位置信息与特定上下文匹配的候选答案进行编码。

对从字级到序列级的匹配表示应用层次聚合方法,然后从序列级到文档级应用。

我们的模型在BERT模型的基础上,于RACE数据集上将当前最高得分提高了2.6个百分点,并使用大规模BERT模型进一步将得分提高了3个百分点。

实验及测试结果

在RACE数据集上对模型进行了评估。这个数据集由两个子集组成:RACE-M和RACE-H。RACE-M来自初中考试试题,RACE-H来自高中考试试题。RACE是这两者的结合。我们将我们的模型与以下基线方法进行了比较:MRU(多范围推理),DFN(动态融合网络),HCM(等级协同匹配),OFT(OpenAI微调语言转换模型),RSM(阅读策略模型)。

我们还将我们的模型与BERT基线进行比较,并实现BERT原论文(2018)中描述的方法,该方法使用对应于第一个输入标记([CLS])的最终隐藏向量作为聚合表示,然后是分类层,最后计算标准分类损失。测试结果如上表所示。

我们可以看到BERT基线模型的性能非常接近先前的最高水平,而大型BERT模型的表现甚至超过了之前SOTA水平3.7%。但是实验结果表明,我们的DCMN模型更强大,将最高得分进一步分别提升了2.2%。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38120

    浏览量

    296667
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261551
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:最强AI挑战中国英语阅读理解:只得70多分,不如中等生

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源提升泛化性能。 4、具身智能与渗透式AI 1)具身智能对AGI的意义
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    进行分析和处理,以便更好地理解和利用这些信息。 具身智能除了学 习还有记忆功能,这在生物学中对应遗传。在芯片实现中,常常采用存算一体化(包含存内计算)以及感知功能也集成在一起的感存算一体化技术
    发表于 09-18 11:45

    全新ES8打造大三排SUV驾乘标杆

    俗话说,鱼和熊掌不可兼得,但蔚团队拒绝「要么好开、要么舒适」的选择题
    的头像 发表于 09-10 15:17 1017次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    章 具身智能芯片 第9章 从AI芯片到AGI芯片 图2 各章重点及逻辑框架 该书可供AI和芯片领域的各层次人群阅读,无论是学习者还是研究人员。 对于本人来说,读这本书不但是为了丰富这方面的知识,更主要的是为孩子读研
    发表于 09-05 15:10

    电子行业:AI 协同精密工艺控更精准

    电子行业的精密工艺控正迎来 AI 协同设备管理系统带来的变革。从工艺设计、设备运行监控、质量检测到设备维护,AI 技术贯穿始终,精密工艺的
    的头像 发表于 08-27 10:10 463次阅读
    电子行业:<b class='flag-5'>AI</b> 协同<b class='flag-5'>让</b>精密工艺<b class='flag-5'>把</b>控更精准

    【赛知多少】 紫光同创赛答疑专场|2025年全国大学生嵌入式芯片与系统设计竞赛FPGA赛道

    紫光同创赛道答疑专场来啦!2025年全国大学生嵌入式芯片与系统设计竞赛报名已拉开帷幕,FPGA赛道的挑战与创新并存。近期,我们收到许多关于赛的咨询,小眼睛科技团队第一时间整理了大家的疑问,并带来
    的头像 发表于 08-06 11:02 3252次阅读
    【赛<b class='flag-5'>题</b>知多少】 紫光同创赛<b class='flag-5'>题</b>答疑专场|2025年全国大<b class='flag-5'>学生</b>嵌入式芯片与系统设计竞赛FPGA赛道

    【「零基础开发AI Agent」阅读体验】+Agent的案例解读

    AI助手等功能,大大提升了古籍整理与研究利用的效率。​ 业务特色​ 在引入扣子前,识典古籍在古籍数字化过程中面临以下的挑战:​ 1)内容理解难度高 古籍语言复杂晦涩,使普通用户往往望而却步,平台
    发表于 05-14 11:23

    【「零基础开发AI Agent」阅读体验】+Agent的工作原理及特点

    如何有效地实现目标。它涉及子目标分解、连续思考和自我反思等复杂的过程。 3)行动 行动是指在感知和规划后所做出的具体操作。 在Agent的应用中,主要是通过提示词完成的,其编写提示词的提示词万能公式
    发表于 05-11 10:24

    【「零基础开发AI Agent」阅读体验】+初品Agent

    期待中的《零基础开发AI Agent——手把手教你用扣子智能体》终于寄到了,该书由叶涛、 管锴、张心雨完成,并由电子工业出版社出版发行。 全书分为三个部分,即入门篇、工具篇及实践篇。由此可见这是
    发表于 04-22 11:51

    【「AI Agent应用与项目实战」阅读体验】书籍介绍

    会追根溯源,你有种“大彻大悟”的感觉。 这本书主要讲大语言模型的内容,教我们做一个AI Agent应用出来,其实这个东西现在也叫智能体了,他跟我们平常使用大语言模型有个不同点在于他会专注某个领域
    发表于 03-05 20:40

    AI Agent应用与项目实战》阅读体验--跟着迪哥学Agent

    的知识是自由行,那么阅读《Agent》就是跟团游。它我对AI落地应用有了更系统和清晰的了解。 《Agent》第一章是全书的导引章节,本章我对Agent的
    发表于 03-02 12:28

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    继续分享第2篇阅读心得。 传统客服系统在知识库更新和多轮对话管理方面存在诸多技术瓶颈,本书第3章中提出的AI课程客服机器人架构巧妙地解决了这些问题。该架构采用Replit作为开发环境
    发表于 02-25 21:59

    AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

    也好好抓住这次AI agent的广阔应用前景,努力学习,厚积薄发。 作为一名数据挖掘工程师,在研读《AI Agent 应用与项目实战》第1-2章时,我对Agent的认知有了质的飞跃。 如果说2023年
    发表于 02-19 16:35

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具完成作业、整理资料的大学生,我原
    发表于 12-20 15:46

    【「大模型启示录」阅读体验】对本书的初印象

    很高兴能够申请到《大模型启示录》一书,作为一名在读大学生,我深感荣幸。在日常生活中,人工智能(AI)的应用已经变得无处不在,它不仅帮助我们完成一些简单的文本归纳任务,还能在代码调试中指出错误,甚至
    发表于 12-16 14:05