0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【每天学点AI】人工智能大模型评估标准有哪些?

华清远见工控 2024-10-17 16:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

OpenAI新模型o1号称编程能力8倍杀GPT-4o,MMLU媲美人类专家,MMLU是什么?评估大模型的标准是什么?

相信大家在阅读大模型相关文档的时候经常会看到MMLU,BBH,GSM8K,MATH,HumanEval,MBPP,C-Eval,CMMLU等等这些都是什么?大模型训练完成后,如何客观地评估其效果呢?

当然我们不能依靠主观判断,于是研究者们制定了一系列标准,用于测评大模型在不同数据集上的表现。而这些数据集( MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU),正是用于评估大模型性能的重要依据。

wKgaoWcQz5eARQUEAAGyTAwPZCY680.png

当然,它们也也可用于模型训练。

MMLU这个基准包含STEM(科学、技术、工程、数学)、人文学科、社会学科等57个学科领域,难度从初级到高级不等。

wKgZoWcQz5eAR2TAAAG28-vYLGg926.png

C-Eval 是一个全面的中文基础模型评估套件,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。

wKgZoWcQz5eAWDLKAAIDXISzVW8694.png

GSM8K(Grade School Math)是一个由OpenAI发布的数据集,有8.5K个高质量语言多样的小学数学问题组成。这些问题需要 2 到 8 个步骤来解决,解决方法主要是使用基本的算术运算(+ - / *)进行一连串的基本计算,以得出最终答案。

wKgaoWcQz5eAb5E9AAF4SUH2jqA445.png

虽然看起来很简单,但很多大模型的表现都不太好。

MATH是一个包含 12500 个数学竞赛问题的数据集,其中的每个问题都有一个完整的推导过程。

wKgZomcQz6KAL2nsAAKIjdVQXjY731.png

HumanEval是由 164 个简单编程问题组成,主要用来评估语言理解、算法和简单的数学。

wKgaomcQz6KAMaCFAAHS2H-Env0490.png

MBPP(Mostly Basic Python Programming)由大约 1000 个Python 编程问题组成,每个问题由任务描述、代码解决方案和 3 个自动化测试用例组成。

wKgZomcQz6KAbEVGAAGu9iWXZn8426.png

BBH的全称是BIG-Bench Hard,它是BIG-Bench数据集的一个子集,它专注于23个具有挑战性的任务,这些任务超出了当前语言模型的能力范围,BBH中的任务需要进行多步骤推理。

wKgZomcQz6GAfufmAAHGWG1ilKw764.png

CMMLU,一个全面的中文大模型评估数据集。它涵盖了67个主题,涉及自然科学、社会科学、工程、人文、以及常识等,就是中文版的MMLU。

wKgaomcQz6KAaST5AAIhd_uKnB8781.png

通过这些评测数据集和评估标准,我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性,为大模型的进一步研究和应用提供科学依据。

AI体系化学习路线

wKgaombzzxSAdyb-AAILSe8A5AM65.jpeg

学习资料免费领

• AI全体系学习路线超详版

• AI体验卡(AI实验平台体验权限)

• 100余讲AI视频课程

• 项目源码《从零开始训练与部署YOLOV8》

• 170余篇AI经典论文

全体系课程详情介绍

wKgaomcQz6KAd9SqAAJYAp3tiGg628.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302624
  • 人工智能
    +关注

    关注

    1820

    文章

    50335

    浏览量

    266976
  • 大模型
    +关注

    关注

    2

    文章

    3773

    浏览量

    5273
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式人工智能课程(华清远见)

    嵌入式 AI 编译器优化:华清远见课程,解锁极致端侧性能 随着人工智能从云端全面向边缘侧和终端侧下沉,“万物智联”的时代已经悄然到来。然而,在这股浪潮背后,隐藏着一个巨大的技术鸿沟:在算力受限
    发表于 04-16 18:47

    九天菜菜大模型agent智能体开发实战2026一月班

    自主 AI 新范式:大模型 Agent 开发实战火爆开课 在科技浪潮汹涌澎湃的当下,人工智能领域正经历着一场深刻变革,大模型 Agent 开发实战课程如璀璨新星般闪耀登场,迅速成为科
    发表于 04-15 16:04

    人工智能测试开发训练营2期

    霍格沃兹干货:AI 测试常见误区与避坑指南 在2026年的技术版图中,人工智能已不再是锦上添花的点缀,而是软件质量的基石。然而,随着大模型(LLM)和生成式AI的深度应用,传统的测试方
    发表于 04-11 16:42

    浅谈人工智能(2)

    接前文《浅谈人工智能(1)》。 (5)什么是弱人工智能、强人工智能以及超人工智能? 弱人工智能(Weak
    的头像 发表于 02-22 08:24 349次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    人工智能应用开发-中级(大模型)》认证证书含金量如何?怎么考?

    在国家《新一代人工智能发展规划》及“人工智能+”行动的双重推动下,人工智能与大模型技术已成为驱动产业智能化升级的核心力量。目前,大
    的头像 发表于 01-28 15:11 1052次阅读
    《<b class='flag-5'>人工智能</b>应用开发-中级(大<b class='flag-5'>模型</b>)》认证证书含金量如何?怎么考?

    探索CY8CKIT - 062S2 - AI PSoC™ 6人工智能评估套件

    探索CY8CKIT - 062S2 - AI PSoC™ 6人工智能评估套件 在电子工程师的日常工作中,一款优秀的评估套件往往能极大地提高开发效率,加速产品推向市场的进程。今天,我们就
    的头像 发表于 12-19 14:30 426次阅读

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏了,这算是官方第一次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了一大批基于人工智能的创业者,这已经算是AI2.0时代的第三波创业潮了,第一波是基础大
    的头像 发表于 08-27 13:21 889次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    中国中车通过中国信通院可信AI人工智能数据集质量四级评估

    2025年8月,中国中车集团有限公司顺利通过中国信通院可信AI人工智能数据集质量4级评估,成为制造行业中首个获得最高评级的中央企业。此次评估严格依据中国信通院牵头编制的《面向
    的头像 发表于 08-22 17:02 1533次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,课程覆盖的广度
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,课程覆盖的广度
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK
    发表于 07-04 11:14

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的
    发表于 07-04 11:10