5月18日,北京智源研究院发布了关于国内外各类开/闭源语言及多模态大模型性能评估的最新研究成果。此项研究覆盖了140余个语言模型的综合实力对比,包括其对中文文本理解和多模态图文问答等任务的处理能力。
研究发现,尽管国内头部语言模型在中文环境中的整体表现已接近国际一流水平,但仍存在能力发展不平衡的问题。
在多模态理解图文问答任务中,开源和闭源模型表现相当,而国产模型则表现出色。此外,在中文语境下的文生图能力方面,国产多模态模型与国际一流水平的差距相对较小。
具体到语言模型的排名,在中文语境下,字节跳动的豆包Skylark2以及OpenAI的GPT-4分别名列第一和第二。值得注意的是,国产大模型在理解中国用户需求方面具有明显优势。
在语言模型客观评价中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同时,百度的文心一言4.0、智谱华章的GLM-4以及月之暗面的Kimi也跻身语言模型主客观评价的前五名。
在多模态理解模型的客观评价中,图文问答方面,阿里巴巴的通义Qwen-vl-max和上海人工智能实验室的InternVL-Chat-V1.5在某些指标上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室的Intern-XComposer2-VL-7B紧随其后。
-
开源
+关注
关注
3文章
4045浏览量
45583 -
模型
+关注
关注
1文章
3650浏览量
51721 -
大模型
+关注
关注
2文章
3460浏览量
4975 -
百川智能
+关注
关注
0文章
18浏览量
162
发布评论请先 登录
商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型
字节豆包大模型团队提出稀疏模型架构
百川智能发布全场景深度思考模型Baichuan-M1-preview
百川智能发布全场景深度思考模型Baichuan-M1-preview
字节跳动豆包大模型1.5 Pro发布
豆包大模型降价后毛利率仍达50%
字节跳动发布豆包大模型1.5 Pro
浪潮信息与智源研究院携手共建大模型多元算力生态
安谋科技与智源研究院达成战略合作,共建开源AI“芯”生态

智源研究院揭晓大模型测评结果,豆包与百川智能大模型表现优异
评论