如果把中学生的英语阅读理解选择题让AI来做，会做出什么水平？-电子发烧友网

如果把中学生的英语阅读理解选择题让AI来做，会做出什么水平？近日，上交大团队训练的“双向协同匹配网络”（DCMN）取得了74%的正确率。尽管和人类学生相比只能算马马虎虎，但对AI来说，这已经达到了目前的最高水平。

目前，在英语考试的阅读理解上，AI虽然无法击败更有能力的人类学生，但它仍然是衡量机器对语言理解能力的最佳量度之一。

近日，上海交通大学的赵海团队对AI模型进行了超过25000次英语阅读理解测试训练。训练材料和中国现行英语水平考试的阅读理解形式类似，每篇文章大约200到300个词，文后是一系列与文章内容相关的多项选择题。这些测试来自针对12至18岁中国学生的英语水平考试。

虽然这些问题有些可以在文中找到答案，但其中一半以上的题目仍需要一定程度的推理。例如，有些问题会要求从四个选项中选出文章的“最佳标题”。在训练结束后，AI参加了测试，其中包括1400次以前从未见过的考试。综合得分为74分（百分制），优于之前的所有机器测试。

上交大的AI系统可以识别与问题相关的文章相关部分，然后选出在含义上和逻辑上最相似的答案。在测试中排名第二的是腾讯的AI系统，在同一次考试中得分为72分。腾讯的AI学会了比较每个选项中包含的信息，并将不同选项间的信息差异作为提示，在文章中寻找证据。

目前最厉害的AI，阅读理解只能得个C+

尽管在测试中分数处于领先，赵海团队仍在努力提高AI系统的能力。“如果从真人学生的视角来看，我们的AI的表现也就是一般水平，最多得个C+，”他说。“对于那些想进入中国优秀大学的学生来说，他们的目标是90分。”

为了提高分数，团队将尝试修改AI，以便理解嵌入在句子结构中的信息，并为AI提供更多数据，扩大其词汇量。

如何理解人类的语言，一直是AI领域的一个主要问题，因为这种理解通常是不精确的，这个问题涉及机器难以掌握的隐含语境信息和社会线索问题。

卡内基梅隆大学的GuokunLai表示，目前我们仍不清楚AI在学习我们的语言时会遵循什么规则，“不过在阅读了大量的句子和文章之后，AI似乎能够理解我们的逻辑。”

该研究的相关论文已经发表在Arxiv上，以下是论文的主要内容：

让AI做阅读理解是一项具有挑战性的任务，需要复杂的推理过程。AI需要从一组候选答案中选择正确的答案。本文提出双重协同匹配网络（DCMN），该网络可以双向地模拟通道，问题和答案之间的关系。

与仅就问题感知或选择性文章表示进行计算的现有方法不同，DCMN能够计算文章感知问题表示和文章感知答案表示。为了证明DCMN模型的有效性，我们在大型阅读理解数据集（即RACE）上评估了模型。结果表明，该模型达到了目前AI阅读理解的最高水平。

机器阅读理解和问答已经成为评估自然语言处理和理解领域人工智能系统进展的关键应用问题。计算语言学界对机器阅读理解和问答的一般问题给予了极大的关注。

本文主要关注选择题阅读理解数据集，如RACE，该数据集中每个问题后都带有一组答案选项。大多数问题的正确答案可能不会在原文中完全复现，问题类型和范围也更加丰富和广泛，比如涉及某一段落的提要和对文章作者态度的分析。

这需要AI能够更深入地了解文章内容，并利用外部世界知识来回答这些问题。此外，与传统的阅读理解问题相比，我们需要充分考虑通过文章-问题-答案三者之间的关系，而不仅仅是问题-答案的配对。

新模型DCMN：在文章、问题、答案三者之间建立联系

DCMN模型可以将问题-答案与给定文章内容进行双向匹配，利用了NLP领域的最新突破——BERT进行上下文嵌入。在介绍BERT的原论文中提到，对应于第一输入令牌（CLS）的最终隐藏向量被用作聚合表示，然后利用分类层计算标准分类损失。

我们认为这种方法太粗糙，无法处理文章-问题-答案的三者关系组合，因为这种方法只是粗略地将文章-问题的联系作为第一序列，将问题作为第二序列，没有考虑问题和文章内容之间的关系。因此，我们提出了一种新方法来模拟文章、问题和候选答案之间的关系。

使用BERT作为编码层，分别得到文章、问题和答案选项的上下文表示。

构造匹配层以获得文章-问题-答案三者之间匹配表示，对问题在文章中对应的位置信息与特定上下文匹配的候选答案进行编码。

对从字级到序列级的匹配表示应用层次聚合方法，然后从序列级到文档级应用。

我们的模型在BERT模型的基础上，于RACE数据集上将当前最高得分提高了2.6个百分点，并使用大规模BERT模型进一步将得分提高了3个百分点。

实验及测试结果

在RACE数据集上对模型进行了评估。这个数据集由两个子集组成：RACE-M和RACE-H。RACE-M来自初中考试试题，RACE-H来自高中考试试题。RACE是这两者的结合。我们将我们的模型与以下基线方法进行了比较：MRU（多范围推理），DFN（动态融合网络），HCM（等级协同匹配），OFT（OpenAI微调语言转换模型），RSM（阅读策略模型）。

我们还将我们的模型与BERT基线进行比较，并实现BERT原论文（2018）中描述的方法，该方法使用对应于第一个输入标记（[CLS]）的最终隐藏向量作为聚合表示，然后是分类层，最后计算标准分类损失。测试结果如上表所示。

我们可以看到BERT基线模型的性能非常接近先前的最高水平，而大型BERT模型的表现甚至超过了之前SOTA水平3.7％。但是实验结果表明，我们的DCMN模型更强大，将最高得分进一步分别提升了2.2％。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26410

浏览量
264018
人工智能

人工智能

+关注

关注
1776

文章
43796

浏览量
230570
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24347

原文标题：最强AI挑战中国英语阅读理解：只得70多分，不如中等生

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

英伟达AI服务器NVLink版与PCIe版有何区别？又如何选择呢？

在人工智能领域，英伟达作为行业领军者，推出了两种主要的GPU版本供AI服务器选择——NVLink版（实为SXM版）与PCIe版。这两者有何本质区别？又该如何根据应用场景做出最佳选择呢？

发表于 03-19 11:21 •919次阅读

英伟达<b class='flag-5'>AI</b>服务器NVLink版与PCIe版有何区别？又如何<b class='flag-5'>选择</b>呢？

谷歌AlphaGeometry系统已接近顶尖学生水平

谷歌的人工智能部门再次证明了其卓越的技术实力，这次推出的AlphaGeometry系统在解决几何问题上的能力已经达到了接近顶尖学生的水平。这一系统由谷歌DeepMind开发，其在解决几何问题上的出色表现几乎与世界上最顶尖的学生相

发表于 01-19 15:44 •265次阅读

微软发布面向学生的AI生成式阅读工具“阅读教练”

Reading Coach原属于Microsoft Teams的一部分，为学习者推送定制化阅读练习及即时语言反馈，便于教育者追踪学习进度。如今，微软已将其拆分为独立应用，并增加丰富的功能。使用者可以选择人物与场景，打造个人专属的人工智能故事。

发表于 01-19 11:04 •250次阅读

《深入理解FFmpeg阅读体验》初识有感

恰好有这么好的机会，当然也有缘份让我有幸成为试读者，特此感谢电子发烧友论坛。【初识有感】我今天刚拿到的书，认真的阅读了推荐语、序、前言这几篇，让我深有感触。第一，通过这几篇我得知刘歧老师，是一位

发表于 01-07 19:48

《深入理解FFmpeg阅读体验》+ 书收到了，崭新的开篇

今天收到了《深入理解FFmpeg》崭新的书，一个在2022年较近距离接触过却尚未深入研究的领域图像处理。最近刚好在作这方面的研究，希望自己可以把握这次机会，好好学习下 FFMpeg，相信可以让自己

发表于 01-07 18:57

如果把ad9643配置成测试模式, 一个时钟周期内两个通道通过LVDS接口输出的数据是一样的吗?

你好, 请问如果把ad9643配置成测试模式, 一个时钟周期内两个通道通过 LVDS接口输出的数据是一样的吗? 谢谢!

发表于 12-04 07:18

如何选择正确的AI？AI的类型有哪些？

‘我在哪里可以获得数据来训练我的人工智能和机器学习模型？第三方数据可能可用，但您必须对其进行验证，以确保它是正确的数据，并且 AI/机器学习模型做出正确的预测。如果没有数据，就没有机器学习。

发表于 11-22 16:48 •881次阅读

如何<b class='flag-5'>选择</b>正确的<b class='flag-5'>AI</b>？<b class='flag-5'>AI</b>的类型有哪些？

MR导游情景英语虚拟仿真实训系统应用

随着科技的进步，旅游业的发展和人们对高品质旅游体验的追求，MR导游情景英语虚拟仿真实训系统应运而生。系统旨在为学生提供一种全新的培训方式，使学生能够更好地掌握英语语言技能，同时模拟各种

发表于 11-22 10:27 •280次阅读

自动驾驶场景理解模块

当前情况的“状态”，还包括对其演变方式的预测。此功能模块中的算法可能能够模拟多种因果场景，以帮助为自主车辆选择最佳行动方案。然而，场景理解本身不会对自主车辆应该采取的行动做出任何决定，也不会

发表于 10-04 17:57 •577次阅读

lpc1114如果把电压提高到3.6v是不是超频到96mhz也可以稳定工作？

lpc1114如果把电压提高到3.6v是不是超频到96mhz也可以稳定工作

发表于 09-25 08:09

《 AI加速器架构设计与实现》+第2章的阅读概括

。感兴趣的话可以好好看看。 2.4和2.5小节分别介绍了卷积顺序的选择和池化模块的设计。这两节的介绍也很详细，图片也很多。阅读感受整本书里面，不仅有文字说明，还有大量图片的配合，有内容的深度，也有图片的直观具体。对于想了解AI

发表于 09-17 16:39

基于电子校牌学生信息管理方案：如何提升学生信息管理水平

“十年树木百年树人”，为掌握校内学生的个人信息，校方需要对校区内的学生负责，如识别该学生是否本校学员、管理本校学员在校信息、健康数据监控等。对此，华安联大推出蓝牙+UWB电子校牌学生信

发表于 07-18 20:52 •288次阅读

如果给路由器天线换成5G信号塔天线会怎么样？

如图所示，如果把路由器天线切换成5G信号塔天线会怎样？技术上可行吗？信号和支持范围会不会增强？我想自己做一款路由器，功能类似于5G工业级路由器（参考），支持网线及SIM卡接入，网线信号优于sim卡。谁有对应零件的厂商资源，留言一下，谢谢！！！

发表于 06-19 09:44

定义了一个64K字节的数组，如果把数组定义成变量数组运行不了怎么解决？

我定义了一个64K字节的数组，如果把数组定义成Const常量，编辑之后运行都正常。但如果把数组定义成变量数组，可以编译（占的空间比较大：Program Size: Code=8776

发表于 06-13 08:36

如何防止技术被盗

如何防止技术被偷？小偷的心理是多疑，因此我们加入如下代码。 while(i) { case 1:barek; case 2:braek; } 功能(); 这段代码用一个空选择题，完成了一个

发表于 05-05 12:54

搜索历史

如果把中学生的英语阅读理解选择题让AI来做，会做出什么水平？

评论

英伟达AI服务器NVLink版与PCIe版有何区别？又如何选择呢？

谷歌AlphaGeometry系统已接近顶尖学生水平

微软发布面向学生的AI生成式阅读工具“阅读教练”

《深入理解FFmpeg阅读体验》初识有感

《深入理解FFmpeg阅读体验》+ 书收到了，崭新的开篇

如果把ad9643配置成测试模式, 一个时钟周期内两个通道通过LVDS接口输出的数据是一样的吗?

如何选择正确的AI？AI的类型有哪些？

MR导游情景英语虚拟仿真实训系统应用

自动驾驶场景理解模块

lpc1114如果把电压提高到3.6v是不是超频到96mhz也可以稳定工作？

《 AI加速器架构设计与实现》+第2章的阅读概括

基于电子校牌学生信息管理方案：如何提升学生信息管理水平

如果给路由器天线换成5G信号塔天线会怎么样？

定义了一个64K字节的数组，如果把数组定义成变量数组运行不了怎么解决？

如何防止技术被盗