近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。
值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。
日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。
分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。
自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。
考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。
相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。
-
谷歌
+关注
关注
27文章
6271浏览量
112191 -
语言模型
+关注
关注
0文章
575浏览量
11372 -
GPT
+关注
关注
0文章
376浏览量
17018
发布评论请先 登录
IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化
阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max
沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型
燧原科技L600适配腾讯混元Hy3 preview语言模型
OpenClaw 全面接入DeepSeek-V4系列模型
大模型 ai coding 比较
OpenAI与Anthropic对战,Claude Opus 4.6与GPT-5.3-Codex同日发布
GPT-5.1发布 OpenAI开始拼情商
NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理
阿里通义千问发布小尺寸模型Qwen3-4B,手机也能跑
OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT
亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线
Claude-3力压GPT-4荣膺最佳大语言模型
评论