0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如果把中学生的英语阅读理解选择题让AI来做,会做出什么水平?

DPVg_AI_era 来源:lp 2019-04-19 10:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果把中学生的英语阅读理解选择题让AI来做,会做出什么水平?近日,上交大团队训练的“双向协同匹配网络”(DCMN)取得了74%的正确率。尽管和人类学生相比只能算马马虎虎,但对AI来说,这已经达到了目前的最高水平。

目前,在英语考试的阅读理解上,AI虽然无法击败更有能力的人类学生,但它仍然是衡量机器对语言理解能力的最佳量度之一。

近日,上海交通大学的赵海团队对AI模型进行了超过25000次英语阅读理解测试训练。训练材料和中国现行英语水平考试的阅读理解形式类似,每篇文章大约200到300个词,文后是一系列与文章内容相关的多项选择题。这些测试来自针对12至18岁中国学生的英语水平考试。

虽然这些问题有些可以在文中找到答案,但其中一半以上的题目仍需要一定程度的推理。例如,有些问题会要求从四个选项中选出文章的“最佳标题”。在训练结束后,AI参加了测试,其中包括1400次以前从未见过的考试。综合得分为74分(百分制),优于之前的所有机器测试。

上交大的AI系统可以识别与问题相关的文章相关部分,然后选出在含义上和逻辑上最相似的答案。在测试中排名第二的是腾讯的AI系统,在同一次考试中得分为72分。腾讯的AI学会了比较每个选项中包含的信息,并将不同选项间的信息差异作为提示,在文章中寻找证据。

目前最厉害的AI,阅读理解只能得个C+

尽管在测试中分数处于领先,赵海团队仍在努力提高AI系统的能力。“如果从真人学生的视角来看,我们的AI的表现也就是一般水平,最多得个C+,”他说。“对于那些想进入中国优秀大学的学生来说,他们的目标是90分。”

为了提高分数,团队将尝试修改AI,以便理解嵌入在句子结构中的信息,并为AI提供更多数据,扩大其词汇量。

如何理解人类的语言,一直是AI领域的一个主要问题,因为这种理解通常是不精确的,这个问题涉及机器难以掌握的隐含语境信息和社会线索问题。

卡内基梅隆大学的GuokunLai表示,目前我们仍不清楚AI在学习我们的语言时会遵循什么规则,“不过在阅读了大量的句子和文章之后,AI似乎能够理解我们的逻辑。”

该研究的相关论文已经发表在Arxiv上,以下是论文的主要内容:

让AI做阅读理解是一项具有挑战性的任务,需要复杂的推理过程。AI需要从一组候选答案中选择正确的答案。本文提出双重协同匹配网络(DCMN),该网络可以双向地模拟通道,问题和答案之间的关系。

与仅就问题感知或选择性文章表示进行计算的现有方法不同,DCMN能够计算文章感知问题表示和文章感知答案表示。为了证明DCMN模型的有效性,我们在大型阅读理解数据集(即RACE)上评估了模型。结果表明,该模型达到了目前AI阅读理解的最高水平。

机器阅读理解和问答已经成为评估自然语言处理和理解领域人工智能系统进展的关键应用问题。计算语言学界对机器阅读理解和问答的一般问题给予了极大的关注。

本文主要关注选择题阅读理解数据集,如RACE,该数据集中每个问题后都带有一组答案选项。大多数问题的正确答案可能不会在原文中完全复现,问题类型和范围也更加丰富和广泛,比如涉及某一段落的提要和对文章作者态度的分析。

这需要AI能够更深入地了解文章内容,并利用外部世界知识来回答这些问题。此外,与传统的阅读理解问题相比,我们需要充分考虑通过文章-问题-答案三者之间的关系,而不仅仅是问题-答案的配对。

新模型DCMN:在文章、问题、答案三者之间建立联系

DCMN模型可以将问题-答案与给定文章内容进行双向匹配,利用了NLP领域的最新突破——BERT进行上下文嵌入。在介绍BERT的原论文中提到,对应于第一输入令牌(CLS)的最终隐藏向量被用作聚合表示,然后利用分类层计算标准分类损失。

我们认为这种方法太粗糙,无法处理文章-问题-答案的三者关系组合,因为这种方法只是粗略地将文章-问题的联系作为第一序列,将问题作为第二序列,没有考虑问题和文章内容之间的关系。因此,我们提出了一种新方法来模拟文章、问题和候选答案之间的关系。

使用BERT作为编码层,分别得到文章、问题和答案选项的上下文表示。

构造匹配层以获得文章-问题-答案三者之间匹配表示,对问题在文章中对应的位置信息与特定上下文匹配的候选答案进行编码。

对从字级到序列级的匹配表示应用层次聚合方法,然后从序列级到文档级应用。

我们的模型在BERT模型的基础上,于RACE数据集上将当前最高得分提高了2.6个百分点,并使用大规模BERT模型进一步将得分提高了3个百分点。

实验及测试结果

在RACE数据集上对模型进行了评估。这个数据集由两个子集组成:RACE-M和RACE-H。RACE-M来自初中考试试题,RACE-H来自高中考试试题。RACE是这两者的结合。我们将我们的模型与以下基线方法进行了比较:MRU(多范围推理),DFN(动态融合网络),HCM(等级协同匹配),OFT(OpenAI微调语言转换模型),RSM(阅读策略模型)。

我们还将我们的模型与BERT基线进行比较,并实现BERT原论文(2018)中描述的方法,该方法使用对应于第一个输入标记([CLS])的最终隐藏向量作为聚合表示,然后是分类层,最后计算标准分类损失。测试结果如上表所示。

我们可以看到BERT基线模型的性能非常接近先前的最高水平,而大型BERT模型的表现甚至超过了之前SOTA水平3.7%。但是实验结果表明,我们的DCMN模型更强大,将最高得分进一步分别提升了2.2%。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42117

    浏览量

    303126
  • 人工智能
    +关注

    关注

    1821

    文章

    50537

    浏览量

    267852
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26306

原文标题:最强AI挑战中国英语阅读理解:只得70多分,不如中等生

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探秘前沿自动化测试技术 | 上海法国学校中学生到访SPEA苏州

    近日,上海法国学校二十余位中学生走进SPEA苏州测试服务中心,开展了一场贴近前沿半导体自动化测试技术的研学实践活动。SPEA苏州总经理孙媛丽、副总杨叶明为来访学子举办了简短而热烈的欢迎仪式,拉开
    的头像 发表于 05-19 18:04 106次阅读
    探秘前沿自动化测试技术 | 上海法国学校<b class='flag-5'>中学生</b>到访SPEA苏州

    AI Agent的进化对存储提出了什么新需求

    如果把大模型比作“大脑”,那AI Agent就是给大脑装上了手、脚、记忆和工具箱。过去的AI,你可能只会把它当作一个聊天机器人。你问问题,它回答。但现在情况开始发生变化,AI开始帮你“
    的头像 发表于 03-19 15:05 552次阅读
    <b class='flag-5'>AI</b> Agent的进化对存储提出了什么新需求

    AI辅助编程设计之道:从Spec到Code工程实践

    容易出错,AI写更容易偏离。但如果把接口定义清楚了,AI反而能稳定输出。 第三,探索式的设计迭代是有效的。不必追求一次设计写完美,可以先
    发表于 03-16 13:33

    龙芯中科护航苏州初中英语听力口语自动化考试

    近日,苏州市八年级英语“人机对话”的正式考试顺利落幕,此次考试采用听说科技的英语人机对话考试系统,全程以“实战”模式护航学生备考自动化英语听说测试,是苏州市教育数字化、规范化考评的重要
    的头像 发表于 02-11 16:27 1103次阅读

    Transformer 入门:从零理解 AI 大模型的核心原理

    AI 处理文本的最小单位,可以是词或词的一部分 嵌入向量 文字变成数字的\"翻译\"方式 注意力机制 词能\"看到\"其他词,理解关系 Q/K/V 查询/键
    发表于 02-10 16:33

    行业资讯 I AI 全自动智能系统设计还有多远

    副总裁兼系统验证事业部总经理PaulCunningham博士如是说。Cadence高级副总裁兼系统验证事业部总经理PaulCunningham博士如果把AI在芯片
    的头像 发表于 09-30 20:48 841次阅读
    行业资讯 I <b class='flag-5'>AI</b>已<b class='flag-5'>来</b> 全自动智能系统设计还有多远

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源提升泛化性能。 4、具身智能与渗透式AI 1)具身智能对AGI的意义
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    进行分析和处理,以便更好地理解和利用这些信息。 具身智能除了学 习还有记忆功能,这在生物学中对应遗传。在芯片实现中,常常采用存算一体化(包含存内计算)以及感知功能也集成在一起的感存算一体化技术
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱动科学一起构成
    发表于 09-17 11:45

    【赛补充说明】2025全国大学生FPGA创新设计竞赛紫光同创杯赛

    【赛发布】2025年全国大学生FPGA创新设计竞赛紫光同创杯赛邀您鸿图展翼共赴芯程!【赛知多少】紫光同创赛答疑专场|2025年全国大学生
    的头像 发表于 09-12 16:03 2660次阅读
    【赛<b class='flag-5'>题</b>补充说明】2025全国大<b class='flag-5'>学生</b>FPGA创新设计竞赛紫光同创杯赛

    全新ES8打造大三排SUV驾乘标杆

    俗话说,鱼和熊掌不可兼得,但蔚团队拒绝「要么好开、要么舒适」的选择题
    的头像 发表于 09-10 15:17 1381次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    章 具身智能芯片 第9章 从AI芯片到AGI芯片 图2 各章重点及逻辑框架 该书可供AI和芯片领域的各层次人群阅读,无论是学习者还是研究人员。 对于本人来说,读这本书不但是为了丰富这方面的知识,更主要的是为孩子读研
    发表于 09-05 15:10

    电子行业:AI 协同精密工艺控更精准

    电子行业的精密工艺控正迎来 AI 协同设备管理系统带来的变革。从工艺设计、设备运行监控、质量检测到设备维护,AI 技术贯穿始终,精密工艺的
    的头像 发表于 08-27 10:10 886次阅读
    电子行业:<b class='flag-5'>AI</b> 协同<b class='flag-5'>让</b>精密工艺<b class='flag-5'>把</b>控更精准

    【赛知多少】 紫光同创赛答疑专场|2025年全国大学生嵌入式芯片与系统设计竞赛FPGA赛道

    紫光同创赛道答疑专场来啦!2025年全国大学生嵌入式芯片与系统设计竞赛报名已拉开帷幕,FPGA赛道的挑战与创新并存。近期,我们收到许多关于赛的咨询,小眼睛科技团队第一时间整理了大家的疑问,并带来
    的头像 发表于 08-06 11:02 3950次阅读
    【赛<b class='flag-5'>题</b>知多少】 紫光同创赛<b class='flag-5'>题</b>答疑专场|2025年全国大<b class='flag-5'>学生</b>嵌入式芯片与系统设计竞赛FPGA赛道

    英语单词学习页面+单词朗读实现 -- 【2】单词朗读实现 ##HarmonyOS SDK AI##

    requestId 原先我按照文档里是这个参数写死的,但是我发现,如果连续两次进行播放的话,就会报错。 文档中的提示是“requestId在同一实例内仅能用一次,请勿重复设置”,我一开始的理解就是你不能
    发表于 06-29 23:26