近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。
值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。
日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。
分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。
自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。
考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。
相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。
-
谷歌
+关注
关注
27文章
6246浏览量
110329 -
语言模型
+关注
关注
0文章
570浏览量
11266 -
GPT
+关注
关注
0文章
368浏览量
16730
发布评论请先 登录
IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化
OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT
亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线
企业级Claude API应用方案!完整调用攻略来袭:带你解锁Claude 3.5/3.7大模型
VLM(视觉语言模型)详细解析
用PaddleNLP在4060单卡上实践大模型预训练技术
OpenAI简化大模型选择:萨姆·奥特曼制定路线图
OpenAI即将发布GPT-4.5与GPT-5
OpenAI即将推出GPT-5模型
OpenAI报告GPT-4o及4o-mini模型性能下降,正紧急调查
OpenAI:GPT-4o及4o-mini模型性能下降,正展开调查
如何在边缘端获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6
国产大模型DeepSeek推出DeepSeek-V3

Claude-3力压GPT-4荣膺最佳大语言模型
评论