0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中文大模型基准测评2023年度报告

悟空智能科技 来源:悟空智能科技 2024-01-02 16:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。

基于此,SuperCLUE团队发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。

国内大模型关键进展012023年大模型关键进展与中文大模型全景图

国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。

2bcb1556-a945-11ee-8b88-92fbcf53809c.png

截止目前为止,国内已发布开源、闭源通用大模型及行业大模型已有上百个,SuperCLUE梳理了2023年值得关注的大模型全景图。

2bd0161e-a945-11ee-8b88-92fbcf53809c.png

022023年国内外大模型发展趋势

过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。

2be24eec-a945-11ee-8b88-92fbcf53809c.png

数据来源于SuperCLUE基准得分(7月-12月)

我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。

2bea426e-a945-11ee-8b88-92fbcf53809c.png

数据来源于SuperCLUE基准得分(7月-12月) 说明:趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。 2bc3726a-a945-11ee-8b88-92fbcf53809c.png  大模型综合测评结果 01测评模型列表

本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的26个大模型在12月份的版本。

2bfac17a-a945-11ee-8b88-92fbcf53809c.png

2bffc5ee-a945-11ee-8b88-92fbcf53809c.png

02SuperCLUE模型象限

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。

基础能力,包含:专业与技能、语言与知识(不包括角色扮演)、传统安全;

应用能力,包括:工具使用、角色扮演。

基于此,SuperCLUE构建了大模型四个象限,它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

2c046b8a-a945-11ee-8b88-92fbcf53809c.png

03国内外大模型总体表现

2c1656ec-a945-11ee-8b88-92fbcf53809c.png

来源:SuperCLUE, 2023年12月28日

国内外差距依然明显。GPT4-Turbo总分90.63分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分,距离GPT4-Turbo有11.61分,距离GPT4(网页)有4.9分的差距。

必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过GPT3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qwen-72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。

另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均优于Llama2-13B-Chat。

国外模型平均成绩 VS 国内模型平均成绩

2c229ca4-a945-11ee-8b88-92fbcf53809c.png

在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。04国内大模型竞争格局

通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4.0、通义千问2.0引领国内大模型的研发进度,部分高质量大模型紧追不舍,分别在闭源应用和开源生态中形成自己独特的优势。

2c26606e-a945-11ee-8b88-92fbcf53809c.png

来源:SuperCLUE, 2023年12月28日

从国内TOP19大模型的数量来看,创业公司有9个,大厂有10个,占比几乎持平。

2c32d3c6-a945-11ee-8b88-92fbcf53809c.png

从大厂和创业公司的平均成绩来看,大厂研发的大模型平均成绩为69.42分,创业公司研发的大模型平均成绩为62.09分,差值约6.33分,较11月份差距在略有增大。这说明大厂在大模型竞争中长期资源投入方面有一定优势。

2c3c00c2-a945-11ee-8b88-92fbcf53809c.png

05国内大模型历月前三甲

过去八个月国内模型在SuperCLUE基准上的前三名。

2c488752-a945-11ee-8b88-92fbcf53809c.png

来源:SuperCLUE

曾经取得过SuperCLUE月榜首位的大模型有6个。分别是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智脑。其中,百度的文心一言登顶SuperCLUE月榜的次数最多,分别在7月、11月、12月取得了SuperCLUE最好成绩。

我们可以看到,在国内大模型技术发展初期阶段,各家大模型公司都投入了巨大的人力、算力和数据资源,以至于每个月测评结果的前三甲都不同程度的变化,经常会因为新发布的高质量模型引起榜单的变化。预计未来一年同样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。

06大模型对战胜率分布图

从胜率来看,全球领跑者GPT4-Turbo胜率为41.77%,和率为52.46%,大幅领先于其他模型,而败率仅为5.77%,足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中,百度的文心一言4.0胜率国内最高,接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和AndesGPT。

2c4cba34-a945-11ee-8b88-92fbcf53809c.png

来源:SuperCLUE, 2023年12月28日

在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位,展现出不俗的对战能力。排在2至3位的是XVERSE-13B-2-Chat、Qwen-14B-Chat,同样表现可圈可点。

从胜率分布数据可以发现,所有模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT3.5的水平相近,随着任务难度的提升,不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。

07主观与客观对比

通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现,可以发现,国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。

2c6be94a-a945-11ee-8b88-92fbcf53809c.png

注:计算分值为模型的OPEN分与OPT分值的差值,用以观察模型在主观题和客观题上的不同表现。数据来源:SuperCLUE, 2023年12月28日

其中,文心一言4.0和智谱清言表现相对稳定,分别为(-13.38)和(-14.01)。GPT-4 Turbo的表现最为稳定,差值仅有0.86。

SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势,所以应该综合来看模型的评测效果。

值得关注的是,在本次测评中,国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现,值得国内大模型进一步分析研究。

08开源竞争格局

总体上国内开源模型表现较好,成绩最好的开源模型在中文的某些场景或任务上接近GPT4,其中Qwen-72B-Chat和Yi-34B-Chat总分上已经超过GPT3.5,Baichuan2-13B-Chat也有接近GPT3.5的表现。

2c886a7a-a945-11ee-8b88-92fbcf53809c.png

来源:SuperCLUE, 2023年12月28日

总体上大版本(如34B)的模型优于中小版本(13B、6B)的开源模型,更大的版本(如72B)的模型表现要更好。开源模型的发展也从最开始的6B,到13B,到现在更大的34B、72B的开源模型。

虽然也有少量大厂(阿里云)参与,但众多的创业公司是开源模型的主力,如智谱AI、百川智能、零一万物和元象科技。

具体内容如下

2c8cc156-a945-11ee-8b88-92fbcf53809c.png

2c908642-a945-11ee-8b88-92fbcf53809c.png

2ca09500-a945-11ee-8b88-92fbcf53809c.png

2cbcb474-a945-11ee-8b88-92fbcf53809c.png

2cc5b678-a945-11ee-8b88-92fbcf53809c.png

2cc9fa58-a945-11ee-8b88-92fbcf53809c.png

2ce4a3da-a945-11ee-8b88-92fbcf53809c.png

2cf7e5d0-a945-11ee-8b88-92fbcf53809c.png

2cfbe2e8-a945-11ee-8b88-92fbcf53809c.png

2d0197ce-a945-11ee-8b88-92fbcf53809c.png

2d164fb6-a945-11ee-8b88-92fbcf53809c.png

2d348e22-a945-11ee-8b88-92fbcf53809c.png

2d53af46-a945-11ee-8b88-92fbcf53809c.png

2d598ea2-a945-11ee-8b88-92fbcf53809c.png

2d78a4fe-a945-11ee-8b88-92fbcf53809c.png

2d87dcf8-a945-11ee-8b88-92fbcf53809c.png

2d8c8032-a945-11ee-8b88-92fbcf53809c.png

2d916a16-a945-11ee-8b88-92fbcf53809c.png

2d99670c-a945-11ee-8b88-92fbcf53809c.png

2da1f778-a945-11ee-8b88-92fbcf53809c.png

2dba4cb0-a945-11ee-8b88-92fbcf53809c.png

2dbfc046-a945-11ee-8b88-92fbcf53809c.png

2de52192-a945-11ee-8b88-92fbcf53809c.png

2df888e0-a945-11ee-8b88-92fbcf53809c.png

2e0977ae-a945-11ee-8b88-92fbcf53809c.png

2e0eaba2-a945-11ee-8b88-92fbcf53809c.png

2e3b9630-a945-11ee-8b88-92fbcf53809c.png

2e549fa4-a945-11ee-8b88-92fbcf53809c.png

2e6e71d6-a945-11ee-8b88-92fbcf53809c.png

2e73965c-a945-11ee-8b88-92fbcf53809c.png

2e95d6fe-a945-11ee-8b88-92fbcf53809c.png

2ea84c76-a945-11ee-8b88-92fbcf53809c.png

2ead96fe-a945-11ee-8b88-92fbcf53809c.png

2eb3405e-a945-11ee-8b88-92fbcf53809c.png

2ecd27da-a945-11ee-8b88-92fbcf53809c.png

2ed62984-a945-11ee-8b88-92fbcf53809c.png

2f09528c-a945-11ee-8b88-92fbcf53809c.png

2f1746a8-a945-11ee-8b88-92fbcf53809c.png

2f455d54-a945-11ee-8b88-92fbcf53809c.png

2f651824-a945-11ee-8b88-92fbcf53809c.png

2f69fb28-a945-11ee-8b88-92fbcf53809c.png

2f6f891c-a945-11ee-8b88-92fbcf53809c.png

2f8cd30a-a945-11ee-8b88-92fbcf53809c.png

2f9726fc-a945-11ee-8b88-92fbcf53809c.png

2fa5dd8c-a945-11ee-8b88-92fbcf53809c.png

2faae48a-a945-11ee-8b88-92fbcf53809c.png

2fc59c58-a945-11ee-8b88-92fbcf53809c.png

2fdaa8b4-a945-11ee-8b88-92fbcf53809c.png

2fdf3bae-a945-11ee-8b88-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38073

    浏览量

    296299
  • ChatGPT
    +关注

    关注

    30

    文章

    1596

    浏览量

    10064
  • 大模型
    +关注

    关注

    2

    文章

    3439

    浏览量

    4960

原文标题:中文大模型基准测评2023年度报告

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广汽集团发布2025年半年度报告

    8月29日,广汽集团发布2025年半年度报告报告期内,公司合并口径营业总收入约426.11亿元。公司资产负债率为44.65%,财务健康水平进一步提高。
    的头像 发表于 09-01 10:50 1134次阅读

    华域汽车发布2025年半年度报告

    20258月28日,华域汽车系统股份有限公司发布2025年半年度报告
    的头像 发表于 08-29 15:56 715次阅读

    京东方发布2025年半年度报告

    20258月27日,京东方科技集团股份有限公司(京东方A:000725;京东方B:200725)发布2025年半年度报告,2025上半年BOE(京东方)实现营业收入1012.78亿元,同比增长8.45%;实现归属于上市公司股
    的头像 发表于 08-29 15:35 2355次阅读

    上汽集团发布2025年半年度报告

    上汽集团今日发布2025年半年度报告报告期内,公司深化改革落地见效,经济运行企稳回升,经营韧性巩固增强,完成整车批售205.3万辆,同比增长12.4%,单月销量实现同比“六连涨”;整车零售达到220.7万辆,继续保持国内行业第一。
    的头像 发表于 08-29 11:21 1404次阅读

    中兴通讯星云大模型登顶SuperCLUE推理专项榜单

    近日,中文模型权威测评基准SuperCLUE发布《中文模型
    的头像 发表于 06-04 16:44 1181次阅读

    上汽集团发布2025第一季度报告

    上海汽车集团股份有限公司(证券代码600104,以下简称上汽)发布2024年年度报告和2025第一季度报告
    的头像 发表于 05-06 15:00 892次阅读

    软通动力发布2024年年度报告

    近日,软通动力信息技术(集团)股份有限公司(301236.SZ)发布2024年年度报告。2024,外部环境复杂多变,信创与人工智能带来巨大市场机遇。软通动力围绕智能化、自主化、绿色化和国际化等新兴趋势,明确“四化”发展战略,完成战略并购,拓展具身智能机器人新赛道,业务赛
    的头像 发表于 04-28 09:54 702次阅读

    一图读懂德明利2024年度报告

    一图读懂德明利2024年度报告
    的头像 发表于 04-25 22:42 418次阅读
    一图读懂德明利2024<b class='flag-5'>年度报告</b>

    理想L6荣获中汽测评2024年度大满贯车型奖

    向大家分享理想L6的好消息:今天,在中国汽车技术研究中心有限公司汽车测评管理中心(中汽测评)主办的2025汽车测评创新大会上,理想L6荣获大会首次特别颁发的最高荣誉——2024年度大满
    的头像 发表于 03-31 15:53 703次阅读

    中兴通讯发布2024年度报告

    报告期内,公司实现营收1,213.0亿元;归母净利润84.2亿元;扣非归母净利润61.8亿元;基本每股收益1.76元;经营性现金流净额114.8亿元。2024年度拟派发现金分红总额占归母净利润比例35%。
    的头像 发表于 03-01 09:22 1050次阅读

    罗克韦尔自动化发布《可持续发展 2024 年度报告

    简称"报告")。这份报告重点展示了公司在推动可持续发展方面的战略布局、具体成果和未来规划,以及罗克韦尔如何帮助客户、企业自身和社区迈向更加可持续的未来。  罗克韦尔自动化发布《可持续发展2024年度报告》 "环境、社会和治理 (
    的头像 发表于 02-13 16:46 545次阅读

    小米开源2024年度报告发布

    近日,小米公司正式发布了其《小米开源2024年度报告》,该报告详细阐述了小米在开源领域所取得的显著进展。在2024这一关键年份里,小米在开源技术方面迈出了坚实的步伐,推出了两项具有里程碑意义的开源大事件。
    的头像 发表于 01-24 13:50 1129次阅读

    晒奖品——2024年度优秀版主

    感谢电子发烧友论坛,给予我2024年度优秀版主的光荣称号。今天收到了奖杯,分享如下: 在2025里,我奖继续努力为论坛做贡献。 祝咱电子发烧友论坛2025人气多多,红红火火!
    发表于 01-19 11:20

    商汤“日日新”融合大模型荣获双料冠军

    技术领域取得了重大进展。 值得一提的是,“日日新”融合大模型在两大权威评测榜单上均表现优异,一举夺得双料冠军。在国内权威大模型测评机构SuperCLUE最新发布的《中文
    的头像 发表于 01-13 16:10 836次阅读

    2023年度《中国公路货运运行大数据分析报告》发布

    伴随新一轮科技革命和产业变革加速演进,公路货运行业也正处于产业升级、结构调整、转型重构的总体发展阶段。在此趋势下,中交兴路联合长安大学等院校和机构,对公路货运行业的运行态势和变化特点持续关注和分析,迄今已连续六编制《中国公路货运运行大数据分析报告》。在多方共同合作之下,
    的头像 发表于 12-29 16:31 1420次阅读
    <b class='flag-5'>2023</b><b class='flag-5'>年度</b>《中国公路货运运行大数据分析<b class='flag-5'>报告</b>》发布