0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【每天学点AI】人工智能大模型评估标准有哪些?

华清远见工控 2024-10-17 16:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

OpenAI新模型o1号称编程能力8倍杀GPT-4o,MMLU媲美人类专家,MMLU是什么?评估大模型的标准是什么?

相信大家在阅读大模型相关文档的时候经常会看到MMLU,BBH,GSM8K,MATH,HumanEval,MBPP,C-Eval,CMMLU等等这些都是什么?大模型训练完成后,如何客观地评估其效果呢?

当然我们不能依靠主观判断,于是研究者们制定了一系列标准,用于测评大模型在不同数据集上的表现。而这些数据集( MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU),正是用于评估大模型性能的重要依据。

wKgaoWcQz5eARQUEAAGyTAwPZCY680.png

当然,它们也也可用于模型训练。

MMLU这个基准包含STEM(科学、技术、工程、数学)、人文学科、社会学科等57个学科领域,难度从初级到高级不等。

wKgZoWcQz5eAR2TAAAG28-vYLGg926.png

C-Eval 是一个全面的中文基础模型评估套件,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。

wKgZoWcQz5eAWDLKAAIDXISzVW8694.png

GSM8K(Grade School Math)是一个由OpenAI发布的数据集,有8.5K个高质量语言多样的小学数学问题组成。这些问题需要 2 到 8 个步骤来解决,解决方法主要是使用基本的算术运算(+ - / *)进行一连串的基本计算,以得出最终答案。

wKgaoWcQz5eAb5E9AAF4SUH2jqA445.png

虽然看起来很简单,但很多大模型的表现都不太好。

MATH是一个包含 12500 个数学竞赛问题的数据集,其中的每个问题都有一个完整的推导过程。

wKgZomcQz6KAL2nsAAKIjdVQXjY731.png

HumanEval是由 164 个简单编程问题组成,主要用来评估语言理解、算法和简单的数学。

wKgaomcQz6KAMaCFAAHS2H-Env0490.png

MBPP(Mostly Basic Python Programming)由大约 1000 个Python 编程问题组成,每个问题由任务描述、代码解决方案和 3 个自动化测试用例组成。

wKgZomcQz6KAbEVGAAGu9iWXZn8426.png

BBH的全称是BIG-Bench Hard,它是BIG-Bench数据集的一个子集,它专注于23个具有挑战性的任务,这些任务超出了当前语言模型的能力范围,BBH中的任务需要进行多步骤推理。

wKgZomcQz6GAfufmAAHGWG1ilKw764.png

CMMLU,一个全面的中文大模型评估数据集。它涵盖了67个主题,涉及自然科学、社会科学、工程、人文、以及常识等,就是中文版的MMLU。

wKgaomcQz6KAaST5AAIhd_uKnB8781.png

通过这些评测数据集和评估标准,我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性,为大模型的进一步研究和应用提供科学依据。

AI体系化学习路线

wKgaombzzxSAdyb-AAILSe8A5AM65.jpeg

学习资料免费领

• AI全体系学习路线超详版

• AI体验卡(AI实验平台体验权限)

• 100余讲AI视频课程

• 项目源码《从零开始训练与部署YOLOV8》

• 170余篇AI经典论文

全体系课程详情介绍

wKgaomcQz6KAd9SqAAJYAp3tiGg628.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38189

    浏览量

    297009
  • 人工智能
    +关注

    关注

    1813

    文章

    49757

    浏览量

    261686
  • 大模型
    +关注

    关注

    2

    文章

    3455

    浏览量

    4974
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏了,这算是官方第一次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了一大批基于人工智能的创业者,这已经算是AI2.0时代的第三波创业潮了,第一波是基础大
    的头像 发表于 08-27 13:21 537次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    中国中车通过中国信通院可信AI人工智能数据集质量四级评估

    2025年8月,中国中车集团有限公司顺利通过中国信通院可信AI人工智能数据集质量4级评估,成为制造行业中首个获得最高评级的中央企业。此次评估严格依据中国信通院牵头编制的《面向
    的头像 发表于 08-22 17:02 1210次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,课程覆盖的广度
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,课程覆盖的广度
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK
    发表于 07-04 11:14

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的
    发表于 07-04 11:10

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用

    -Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用 Cognizant将在关键增长领域提供解决方案,包括企业级AI智能体、定制化行业大型语言
    的头像 发表于 03-26 14:42 583次阅读
    Cognizant将与NVIDIA合作部署神经<b class='flag-5'>人工智能</b>平台,加速企业<b class='flag-5'>人工智能</b>应用

    AI人工智能隐私保护怎么样

    在当今科技飞速发展的时代,AI人工智能已经深入到我们生活的方方面面,从医疗诊断到交通调度,从教育辅助到娱乐互动,其影响力无处不在。然而,随着AI人工智能的广泛应用,其安全性问题也备受关
    的头像 发表于 03-11 09:46 969次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>人工智能</b>隐私保护怎么样

    人工智能模型年度发展趋势报告

    2024年12月的中央经济工作会议明确把开展“人工智能+”行动作为2025年要抓好的重点任务。当前,以大模型为代表的人工智能正快速演进,激发全球科技之变、产业之变、时代之变,人工智能
    的头像 发表于 02-13 10:57 1527次阅读
    <b class='flag-5'>人工智能</b>大<b class='flag-5'>模型</b>年度发展趋势报告

    人工智能和机器学习以及Edge AI的概念与应用

    作者:DigiKey Editor 人工智能AI)已经是当前科技业最热门的话题,且其应用面涉及人类生活的各个领域,对于各个产业都带来相当重要的影响,且即将改变人类未来发展的方方面面。本文将为您介绍
    的头像 发表于 01-25 17:37 1587次阅读
    <b class='flag-5'>人工智能</b>和机器学习以及Edge <b class='flag-5'>AI</b>的概念与应用

    生成式人工智能模型的安全可信评测

    受到关注。但当前大模型仍然面临可信瓶颈,无法开展大规模应用。大模型的安全可信受到高度关注,国内外已经多项法规与标准快速制定并落地。本文以层次化的结构,构建了生成式
    的头像 发表于 01-22 13:55 1575次阅读
    生成式<b class='flag-5'>人工智能</b><b class='flag-5'>模型</b>的安全可信评测