0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华权威报告公布,文心一言多项指标“遥遥领先”

百度 来源:百度 2024-04-23 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小,名副其实为国内头部模型。

5e763e18-00bb-11ef-a297-92fbcf53809c.png5e8711d4-00bb-11ef-a297-92fbcf53809c.png

例如在人类对齐能力评测中,文心4.0表现优异,位居国内第一,其中在中文推理、中文语言等评测上,文心遥遥领先,和其他模型拉开明显差距,中文理解上,文心4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心4.0分差超过1分。

在语义理解中的数学能力上,文心4.0与Claude-3并列全球第一;GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

而在企业选择大模型最看重的安全性评测上,国内模型文心4.0表现亮眼,力压国际一流模型GPT-4系列模型和Claude-3拿下最高分(89.1分),Claude-3仅列第四。

5e9503a2-00bb-11ef-a297-92fbcf53809c.png

值得注意的是,文心一言不仅在技术能力上过硬,在应用落地上也是一路领先。自去年3月16日文心一言首发至今,用户数已突破2亿,每天API调用量也突破了2亿。

审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2368

    浏览量

    94249
  • 文心一言
    +关注

    关注

    0

    文章

    134

    浏览量

    2093
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4972

原文标题:文心一言多项指标“遥遥领先” 清华权威报告公布

文章出处:【微信号:baidu_2000,微信公众号:百度】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技连获多项权威肯定

    近日,多项商业、金融、科技领域大奖陆续公示,商汤科技喜报连连!
    的头像 发表于 11-28 15:47 259次阅读

    上帝之眼蔡司,真正的遥遥领先,光学传奇。

    行业芯事行业资讯
    芯广场
    发布于 :2025年11月06日 17:05:04

    理想i8荣获权威实测多项

    近期,多家权威汽车媒体发布了纯电车型续航横评测试结果,理想i8凭借出色的表现引发了广泛关注。
    的头像 发表于 08-14 14:29 1749次阅读

    宁畅与与百度大模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI 服务器产品矩阵,宁畅帮助企业在大模型时代键打通算力与应用“任督二脉”,显著缩短模型落地周期。 在已启动的深度技术合作中,双方将基于大模型共同推出面向企业的
    的头像 发表于 07-07 16:26 658次阅读

    黑芝麻智能与大模型技术合作升级

    近日,大模型正式开源,黑芝麻智能即日起快速启动与大模型技术合作。
    的头像 发表于 07-04 17:24 1020次阅读
    黑芝麻智能与<b class='flag-5'>文</b><b class='flag-5'>心</b>大模型技术合作升级

    天工机器人马拉松夺冠背后的硬核科技

    “天工”机器人为什么遥遥领先?关键因素之在于其卓越的运动控制与实时反馈的“具身小脑”。
    的头像 发表于 05-09 14:24 807次阅读

    deepseek和文一言两者有什么区别?哪个跟合适您使用呢?

    (DeepSeek)公司开发,该公司专注于开发低成本、高性能的AI模型,致力于通过技术创新推动人工智能技术的普惠化。DeepSeek可能基于独特的技术架构和算法,如混合专家(MoE)架构和多头潜在注意力(MLA)机制。 ◆ 一言
    的头像 发表于 02-23 09:37 3810次阅读

    百度下大模型正式开源

    随着大模型的迭代升级和成本不断下降,一言将于4月1日0时起全面免费,所有PC端和APP端用户均可体验
    的头像 发表于 02-17 13:44 809次阅读

    百度搜索与心智能体平台接入DeepSeek及大模型深度搜索

    近日,百度搜索与心智能体平台联合宣布了项重要更新:将全面接入DeepSeek及大模型最新的深度搜索功能。这更新将为用户和开发者带来
    的头像 发表于 02-17 09:14 976次阅读

    一言与ChatGPT同时免费,读懂全球AI新周期

    2025全球AI迎来降本升级浪潮
    的头像 发表于 02-14 10:13 1.3w次阅读
    从<b class='flag-5'>文</b><b class='flag-5'>心</b><b class='flag-5'>一言</b>与ChatGPT同时免费,读懂全球AI新周期

    百度大模型4月1日起全面免费开放

    列最新的模型功能。 百度表示,大模型的此次升级不仅带来了更加丰富的功能,还致力于提升用户体验。与此同时,百度还透露,一言将同步上线深
    的头像 发表于 02-14 09:19 682次阅读

    百度宣布一言将全面免费

    随着大模型的迭代升级和成本不断下降,一言将于4月1日零时起,全面免费,所有PC端和APP端用户均可体验
    的头像 发表于 02-13 10:46 661次阅读

    机械革命无界X系列轻薄本将预装一言

    提供了多样化的选择。机械革命将为无界X系列轻薄本预装百度一言,为用户带来更加智能、便捷的使用体验。用户可以通过语音或文字与笔记本进行交互,获取所需的信息,服务增强使用体验以及推动AI普及。
    的头像 发表于 01-20 17:26 1162次阅读

    说清楚什么是AI大模型

    生成能力强,部分版本支持多模态输入(如图像理解) 一言 百度 针对中文优化,适合国内应用场景 LLa
    的头像 发表于 01-02 09:53 3965次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b>说清楚什么是AI大模型

    模力无限,星河共创:启明云端与您共赴大模型生态大会

    在人工智能的浪潮中,我们即将迎来场科技界的盛会——大模型生态大会。这场将于12月26日在上海·张江科学会堂举行的大会,由深度学习技术及应用国家工程研究中心主办,百度飞桨及
    的头像 发表于 12-24 18:01 1532次阅读
    模力无限,星河共创:启明云端与您共赴<b class='flag-5'>文</b><b class='flag-5'>心</b>大模型生态大会