5月18日,北京智源研究院发布了关于国内外各类开/闭源语言及多模态大模型性能评估的最新研究成果。此项研究覆盖了140余个语言模型的综合实力对比,包括其对中文文本理解和多模态图文问答等任务的处理能力。
研究发现,尽管国内头部语言模型在中文环境中的整体表现已接近国际一流水平,但仍存在能力发展不平衡的问题。
在多模态理解图文问答任务中,开源和闭源模型表现相当,而国产模型则表现出色。此外,在中文语境下的文生图能力方面,国产多模态模型与国际一流水平的差距相对较小。
具体到语言模型的排名,在中文语境下,字节跳动的豆包Skylark2以及OpenAI的GPT-4分别名列第一和第二。值得注意的是,国产大模型在理解中国用户需求方面具有明显优势。
在语言模型客观评价中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同时,百度的文心一言4.0、智谱华章的GLM-4以及月之暗面的Kimi也跻身语言模型主客观评价的前五名。
在多模态理解模型的客观评价中,图文问答方面,阿里巴巴的通义Qwen-vl-max和上海人工智能实验室的InternVL-Chat-V1.5在某些指标上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室的Intern-XComposer2-VL-7B紧随其后。
-
开源
+关注
关注
3文章
4344浏览量
46441 -
模型
+关注
关注
1文章
3817浏览量
52265 -
大模型
+关注
关注
2文章
3768浏览量
5269 -
百川智能
+关注
关注
0文章
18浏览量
188
发布评论请先 登录
商汤大装置联合大晓机器人与广西产业技术研究院达成战略合作
国产算力首证具身大脑模型训练实力:摩尔线程联合智源研究院完成RoboBrain 2.5全流程训练
广电计量与长沙三大研究院达成战略合作
广电计量携手南山研究院打造大健康产业新生态
澎峰科技加入智源研究院FlagOS开源社区
勇艺达人工智能研究院迎大咖加盟
大模型推理显存和计算量估计方法研究
大华问数智能体一体机通过中国信通院权威评测认证
商汤大装置万象大模型开发平台获得中国信通院最高评级
多模态感知+豆包大模型!家居端侧智能升级
智源研究院揭晓大模型测评结果,豆包与百川智能大模型表现优异
评论