0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智源研究院揭晓大模型测评结果,豆包与百川智能大模型表现优异

微云疏影 来源:综合整理 作者:综合整理 2024-05-20 09:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

5月18日,北京智源研究院发布了关于国内外各类开/闭源语言及多模态大模型性能评估的最新研究成果。此项研究覆盖了140余个语言模型的综合实力对比,包括其对中文文本理解和多模态图文问答等任务的处理能力。

研究发现,尽管国内头部语言模型在中文环境中的整体表现已接近国际一流水平,但仍存在能力发展不平衡的问题。

在多模态理解图文问答任务中,开源和闭源模型表现相当,而国产模型则表现出色。此外,在中文语境下的文生图能力方面,国产多模态模型与国际一流水平的差距相对较小。

具体到语言模型的排名,在中文语境下,字节跳动的豆包Skylark2以及OpenAI的GPT-4分别名列第一和第二。值得注意的是,国产大模型在理解中国用户需求方面具有明显优势。

在语言模型客观评价中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同时,百度的文心一言4.0、智谱华章的GLM-4以及月之暗面的Kimi也跻身语言模型主客观评价的前五名。

在多模态理解模型的客观评价中,图文问答方面,阿里巴巴的通义Qwen-vl-max和上海人工智能实验室的InternVL-Chat-V1.5在某些指标上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室的Intern-XComposer2-VL-7B紧随其后。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4045

    浏览量

    45583
  • 模型
    +关注

    关注

    1

    文章

    3650

    浏览量

    51721
  • 大模型
    +关注

    关注

    2

    文章

    3460

    浏览量

    4975
  • 百川智能
    +关注

    关注

    0

    文章

    18

    浏览量

    162
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    弘信电子携手百川智能推动医疗AI技术落地应用

    近日,百川智能正式发布开源医疗增强大模型Baichuan-M2,该模型以卓越性能问鼎全球开源医疗模型榜首,实现中国在医疗AI领域从跟跑到领跑
    的头像 发表于 08-19 10:58 980次阅读
    弘信电子携手<b class='flag-5'>百川</b><b class='flag-5'>智能</b>推动医疗AI技术落地应用

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    的大模型。 可信AI多模态大模型评估2025年1月启动,由中国信通人工智能研究所牵头,依据由业界60余家单位共同编制的《多模态大
    的头像 发表于 06-11 11:57 1169次阅读

    度文心大模型X1 Turbo获得信通当前大模型最高评级证书

    度在520居然还领了个证?是它, 信通当前大模型最高评级证书 ! 在5月20日的度AI Day 上,中国信通公布了大
    的头像 发表于 05-21 18:19 1117次阅读
    <b class='flag-5'>百</b>度文心大<b class='flag-5'>模型</b>X1 Turbo获得信通<b class='flag-5'>院</b>当前大<b class='flag-5'>模型</b>最高评级证书

    字节豆包模型团队提出稀疏模型架构

    字节跳动豆包模型Foundation团队近期研发出UltraMem,一种创新的稀疏模型架构,旨在解决推理过程中的访存问题,同时确保模型效果不受影响。
    的头像 发表于 02-13 15:25 1029次阅读

    百川智能发布全场景深度思考模型Baichuan-M1-preview

    近日,百川智能正式发布了国内首个全场景深度思考模型——Baichuan-M1-preview。这一创新成果标志着我国在人工智能领域取得了重要突破,特别是在语言、视觉和搜索三大领域的推理
    的头像 发表于 02-05 13:51 895次阅读

    百川智能发布全场景深度思考模型Baichuan-M1-preview

    表现出色,可对标o1-preview。 尤为值得一提的是,该模型解锁了医疗循证模式。百川智能自建了涵盖亿级条目的循证医学知识库,能以天为单位进行动态更新。面对复杂医学问题,Baich
    的头像 发表于 01-24 14:40 1328次阅读

    字节跳动豆包模型1.5 Pro发布

    近日,字节跳动旗下的豆包模型迎来了全新的升级——豆包模型1.5 Pro正式发布。这款全新模型在知识、代码、推理、中文等多个
    的头像 发表于 01-23 15:24 1117次阅读

    豆包模型降价后毛利率仍达50%

    火山引擎平台上售卖的API版本Doubao-1.5-pro,其毛利率高达50%,这一数据充分证明了豆包模型在成本控制和盈利能力上的卓越表现。 回顾去年5月,字节跳动正式对外发布了豆包
    的头像 发表于 01-23 10:54 1164次阅读

    字节跳动发布豆包模型1.5 Pro

    字节跳动正式发布了豆包模型1.5 Pro。 全新的Doubao -1.5 - pro模型综合能力显著增强,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT - 4o、Cl
    的头像 发表于 01-23 10:24 1141次阅读

    浪潮信息与智研究院携手共建大模型多元算力生态

    近日,浪潮信息与北京智人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元算力开源创新生态。 此次合作旨在提升大模型创新
    的头像 发表于 12-31 11:49 883次阅读

    安谋科技与智研究院达成战略合作,共建开源AI“芯”生态

    12月25日,安谋科技(中国)有限公司(以下简称“安谋科技”)与北京智人工智能研究院(以下简称“智研究院”)正式签署战略合作协议,双方将
    发表于 12-26 17:06 632次阅读
    安谋科技与智<b class='flag-5'>源</b><b class='flag-5'>研究院</b>达成战略合作,共建开源AI“芯”生态

    浪潮信息与智研究院达成战略合作协议

    近日,浪潮信息与智研究院达成战略合作协议,双方将紧密协作共建大模型多元算力开源创新生态,提升大模型创新研发的算力效率,降低大模型应用开发的
    的头像 发表于 12-26 10:25 909次阅读

    百川智能发布Baichuan4-Finance金融大模型

    近日,百川智能正式推出了其全链路领域增强的金融大模型——Baichuan4-Finance。这一创新产品的发布,标志着百川智能在金融
    的头像 发表于 12-25 10:11 942次阅读

    腾讯混元文生图登顶智FlagEval评测榜首

    近日,北京智人工智能研究院(BAAI)发布了最新的FlagEval大模型评测排行榜,其中多模态模型评测榜单的文生图
    的头像 发表于 12-25 10:06 1202次阅读

    云知声山海大模型多项评测名列前茅

    近日,智研究院发布并解读了国内外100余个开源和商业闭的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果
    的头像 发表于 12-24 10:29 769次阅读