0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

闭卷开考全国一卷,AI大模型高考数学全部不及格?!

E4Life 来源:电子发烧友 作者:周凯扬 2024-06-21 00:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)当下的大模型除了卷商业化变现外,又开辟出了一个新的“赛博斗蛐蛐”赛道,以各种评测标准来测试大模型在语言、数学、推理和代码方面的综合成绩。作为国内最权威的考试之一,高考则是最能代表学生综合能力的一次考验,而大模型这个特殊身份的考生,如果参加高考究竟会获得怎样的成绩,也激起了网友的好奇之心。

上海人工智能实验室的大模型评测体系OpenCompass在近日举办了这么一次测试,让6大开源模型和GPT-4o参加一次特殊的“高考”,然而这些大模型获得的成绩却让不少人大跌眼镜。

闭卷开考全国一卷

在这次大模型参加高考中,OpenCompass的首轮测试采用了全国新课标I卷的语数外试卷作为题源,该卷的覆盖省份包括江苏、浙江、河北、福建、山东、湖北、湖南、广东等。为了方便测试,除了省去其他非统一学科外,其中英语省去了30分的听力,所以其单科总分变为了120分。

为了做到“闭卷”,这些受测的模型中,包括Mistral的开源对话模型Mixtral 8x22B、零一万物的Yi-1.5-34B大模型、智谱AI的GLM-4-9B、上海人工智能实验室推出的InternLM2-20B-WQX大语言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。

以上开源模型的开源时间均早于本届高考,发布时间最新的是InternLM专门在高考前夕推出的文曲星系列大模型,InternLM2-WQX。即便如此,其发布于6月4日的时间也满足了闭卷考试的前提。唯一的例外是商用闭源模型GPT-4o,但其成绩也仅仅是作为评测参考。

在阅卷评分上,OpenCompass请到了多位有阅卷经验的高中教师对主观题答案进行评分,每份考卷都由至少3位教师评阅取平均分,甚至对分差较大的题目进行了二次审核。另外值得关注的是,为了保证阅卷老师在主客观题上产生对大模型“先入为主”的观念,OpenCompass在阅卷之后才告知阅卷老师答案由大模型生成,并对成绩做一个整体分析。

wKgZomZ0BCWAPKHmAAOALGiaXp4470.png
AI大模型高考语数外得分 / 上海人工智能实验室


从总分来看,阿里巴巴的通义千问大模型Qwen2-72B排名第一,其次是成绩相近的GPT-4o和InternLM2-20B-WQX。然而单从数学这一门科目来看,所有的大模型都没有及格,Mixtral 8x22B甚至只获得了21分的成绩。

语言能力依然是LLM的强项,但“应试”能力仍有提升空间

在这次“高考测试”中,不少大模型都在语文和英语上获得了不错的成绩,尤其是在英语试卷上,GPT-4o更是在英语上获得了111.5的高分。在语文上,还是国内的模型更具优势,尤其是在文言文阅读、古诗文阅读和名句默写上。

有趣的一点是,在语文作文上,各大模型都没有拉开较大差距。但据上海人工智能实验室的观察,大模型的作文都倾向于将“首先”“其次”和“然后”这样表达先后顺序的词放在段首。此外,目前多数大模型都没有对一些“应试”类题型做出优化,比如在语文考试中,阅读理解中的一些本体、喻体、暗喻等概念,大模型尚不能完全理解,所以在语言文字运用题型上,比如补写句子等题目就普遍得分不高。

而在英语考试中,尽管各大模型整体表现良好,但部分模型并不适应完形填空、七选五这样非传统问答式的题型,会出现答案错位的情况,因此得分率依然处于一个较低的水平。

在英语续写和作文的撰写上,大模型都存在忽略题目要求的现象,普遍出现了超出字数限制而扣分的情况,且单段文字过长。在故事续写这样的题型中,部分大模型也会展开不合实际的联想,比如InternLM2-20B-WQX的作答中,就出现了出租车内司机拨通银行内线电话的离谱情节。

数学不及格,主观问答题成为最大短板

wKgaomZ0BDKAKfhmAALzT7cr6Gc900.png
AI大模型数学各题型得分 / 上海人工智能实验室


相较语言能力测试成绩,AI大模型在数学能力测试上获得的成绩就显得不尽如人意了。最高分为InternLM2-20B-WQX取得的75分,可以说在数学这门学科上,几乎所有的大模型都败下阵来。全国新课标I卷的数学试卷中存在两道带图题,对于不支持多模态输入的大模型而言,只能选择输入题干文字从而将图片舍弃,这也是失分严重的原因之一。

wKgaomZ0BD6AA07RAAHqWlB3xsA388.png
Qwen2-72B的带图题答案 / 上海人工智能实验室


以上图中的带图题答案为例,大模型仅仅给出了一个解题框架,并没有给出具体数值的答案。GPT-4o和InternLM2-20B-WQX等大模型虽然给出了具体答案和解题过程,但最终得到的是一个错误的答案。

之所以InternLM2-20B-WQX能在数学考试上获得相对较高的成绩,也归功于其团队在数学大模型上的积累。今年年初InternLM发布了数学模型书生·浦语数学(InternLM2-Math)。书生·浦语数学也是首个同时支持形式化数学语言以及解题过程评价的开源模型,如此一来不仅可以用于数学计算解答,也可以用于数学基础研究和教学。

尽管如此,在数学考试的问答主观题上,大模型依然成绩惨淡。这是因为大模型的回答多数比较凌乱,也出现了不少常见的错误解答但答案正确的现象。所以在77分满分的问答题上,最高的InternLM2-20B-WQX也只仅仅得了26分。

AI大模型是不合格的考生吗?

根据阅卷老师的点评来看,AI大模型依然还是一个比较“死板”的考生,尤其是在主观题上。以语文的主观题为例,很多大模型在第一步审题就失败了,所以答非所问。在英语题目上,大模型的实力还是毋庸置疑的,但还是会在题型和作文中出现纰漏。

至于数学依然是所有大模型的弱项,大模型更像是记住了公式但不会运用的学生,在大部分题目上更倾向于穷举而非推理。至于带图的立体几何解答题,大模型更是缺乏空间概念,导致出现离谱的解答过程和答案。由此看来,大模型的“应试”能力依然有所欠缺,但在飞速迭代下,相信未来这种障碍会越来越少。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41115

    浏览量

    302606
  • AI大模型
    +关注

    关注

    0

    文章

    407

    浏览量

    1038
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【2026嵌入式大赛总攻略】从小白到国一的进阶之路!15大赛道选题全解析+备赛指南+国一作品拆解

    2026全国大学生嵌入式芯片与系统设计竞赛(嵌赛)正在作品制作阶段。不管你是第次参赛的嵌入式小白,还是想冲刺国一的参赛老手,这篇《嵌入式大赛总攻略:从小白到国一》,都能帮你少走90%
    的头像 发表于 04-23 10:30 180次阅读
    【2026嵌入式大赛总攻略】从小白到<b class='flag-5'>国一</b>的进阶之路!15大赛道选题全解析+备赛指南+<b class='flag-5'>国一</b>作品拆解

    AI模型微调企业项目实战课

    自主可控大模型:企业微调实战课,筑牢未来 AI 底座 在人工智能席卷全球商业版图的今天,企业对大模型(LLM)的态度已经从“新奇观望”转变为“全面拥抱”。然而,随着应用层面的不断深入,
    发表于 04-16 18:48

    后摩智能全国总部正式落地北京经

    将依托亦庄的人工智能产业生态,加速突破端边大模型AI芯片核心技术,为首都全球AI创新高地建设注入强劲动能。
    的头像 发表于 03-19 10:22 533次阅读

    模型 ai coding 比较

    框架:llm-coding-bench v1.0 统代码执行超时:10秒 统随机种子:42 统裁判模型:DeepSeek-Chat(第三方交叉验证) ? 综合评分公式: scss
    发表于 02-19 13:43

    全国首个“鸿蒙AI数智机关”落地福田,深鸿筑牢政务安全底座

    2026年1月12日,“全栈式鸿蒙AI数智机关标杆场景发布暨机关鸿蒙生态建设推进大会”在福田会堂举行,全国首个基于“国产开源鸿蒙系统+AI智能体”的全栈式数智机关正式启动亮相。作为意向加入机关鸿蒙
    的头像 发表于 01-13 17:38 643次阅读
    <b class='flag-5'>全国</b>首个“鸿蒙<b class='flag-5'>AI</b>数智机关”落地福田,深<b class='flag-5'>开</b>鸿筑牢政务安全底座

    避繁就简!商汤日日新大模型灵性巧解数学难题,获赞“机器的审美”

    、字节跳动,让数学AI同台碰撞,开展了场真刀真枪的“图灵测试”。 现场,面对数学家抛出的难题,商汤科技“日日新”大模型在解答复分析计算积
    的头像 发表于 01-12 11:41 420次阅读
    避繁就简!商汤日日新大<b class='flag-5'>模型</b>灵性巧解<b class='flag-5'>数学</b>难题,获赞“机器的审美”

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    金属之躯,AI之心:萤石智能锁如何出新高度

    智能锁到尽头,萤石用AI开启下半场
    的头像 发表于 10-11 16:18 5715次阅读
    金属之躯,<b class='flag-5'>AI</b>之心:萤石智能锁如何<b class='flag-5'>卷</b>出新高度

    文看懂AI训练、推理与训推体的底层关系

    (Inference)。它们就像“学霸的高考备考”和“考试当天的答题表现”,缺不可。1、什么是AI训练(Training)?通过大量数据训练模型参数,使其具备特定
    的头像 发表于 09-19 11:58 2871次阅读
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b>训练、推理与训推<b class='flag-5'>一</b>体的底层关系

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片 ⑤AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就个跨学科、全面性覆盖的知识库和科学基础模型
    发表于 09-17 11:45

    湖北移动携手华为打造AI WAN SPN智慧教育专网

    2025年全国高考正式落下帷幕,湖北移动联合华为等合作伙伴依托AI WAN SPN(Slicing Packet Network,切片分组网)打造智慧教育专网,以“云网智能体化”为特
    的头像 发表于 06-14 11:02 1239次阅读

    学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”

    2025年高考即将拉开帷幕,江西、湖北、广东等全国多地启用AI智能巡系统。该系统通过教室顶部的广角摄像头实时捕捉考生动态,依托深度学习算法构建骨骼关节点
    的头像 发表于 06-09 13:34 1430次阅读
    学校时钟系统,标准考场时钟系统,<b class='flag-5'>AI</b>亮相2025<b class='flag-5'>高考</b>,赛思时钟系统为教育公平筑起“精准防线”

    广凌标准化考场建设整体解决方案——全力维护高考安全公平考试环境

    近日,教育部发布消息,全国公安机关会同教育部门持续高压打击涉违法犯罪活动,已侦破批组织考试作弊和涉诈骗案件,全力保障高考安全公平环境。
    的头像 发表于 06-06 09:58 1131次阅读
    广凌标准化考场建设整体解决方案——全力维护<b class='flag-5'>高考</b>安全公平考试环境

    高考考场上,除了身份证人脸识别体机,还有哪些高科技设备?

    2024年全国高考已进入倒计时。据数据统计,今年高考报名人数达到1353万,创下历史新高!而本科生总招生人数预计约为450万,可以说,2024年的高考是最具竞争力的
    的头像 发表于 05-22 10:08 919次阅读
    <b class='flag-5'>高考</b>考场上,除了身份证人脸识别<b class='flag-5'>一</b>体机,还有哪些高科技设备?