0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Claude-3力压GPT-4荣膺最佳大语言模型

微云疏影 来源:综合整理 作者:综合整理 2024-03-28 15:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。

值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。

日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。

分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。

自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。

考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。

相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112191
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11372
  • GPT
    GPT
    +关注

    关注

    0

    文章

    376

    浏览量

    17018
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化

    电子发烧友网报道(文 / 吴子鹏)5 月 23 日凌晨,著名大模型平台 Anthropic 召开首届开发者大会,重磅发布最新大模型 ——Claude 4
    的头像 发表于 05-26 07:52 6119次阅读
    IT岗位天塌了!<b class='flag-5'>Claude</b> <b class='flag-5'>4</b>震撼发布:AI编程大<b class='flag-5'>模型</b>再进化

    阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max

    、DeepSeek-v4-pro、GLM-5.1等一众国产对手,与GPTClaude、Gemini等国际最强模型水平接近,强势位列国产模型
    的头像 发表于 05-21 09:10 691次阅读

    沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型。沐曦股份旗下曦云 C 系列 GPU已完成Day 0适配,为率先支持该模型
    的头像 发表于 04-28 15:51 1732次阅读
    沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy<b class='flag-5'>3</b> preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    燧原科技L600适配腾讯混元Hy3 preview语言模型

    2026年4月23日,腾讯混元 Hy3 preview 语言模型发布并开源,燧原 L600已同步完成对 Hy3 preview极速全面适配。
    的头像 发表于 04-28 15:13 311次阅读
    燧原科技L600适配腾讯混元Hy<b class='flag-5'>3</b> preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    OpenClaw 全面接入DeepSeek-V4系列模型

    降低73%、KV缓存占用缩减90%的突破。V4-Pro则以1.6万亿总参数、490亿激活参数,在AgenticCoding评测中达开源模型最佳水平,Codeforces Rating突破3206,位列全球第23名,接近
    的头像 发表于 04-28 09:29 788次阅读

    模型 ai coding 比较

    %通过),Kimi 7/9(77.8%通过) 3. 代码重构/项目理解能力(权重25%) 测试目标 :模型对复杂项目的理解和工程化能力 测评题目:手工设计的企业级真实场景(10题) 覆盖题型: 读懂代码
    发表于 02-19 13:43

    OpenAI与Anthropic对战,Claude Opus 4.6与GPT-5.3-Codex同日发布

    电子发烧友网报道 北京时间2月6日凌晨,Anthropic与OpenAI分别推出了新版本基础大模型——Claude Opus 4.6和GPT-5.3-Codex。     Claude
    的头像 发表于 02-06 14:19 2195次阅读
    OpenAI与Anthropic对战,<b class='flag-5'>Claude</b> Opus 4.6与<b class='flag-5'>GPT</b>-5.3-Codex同日发布

    上海交大发布国产光学大模型Optics GPT

    电子发烧友网综合报道 1月25日,上海交通大学正式推出光学领域垂直大语言模型——Optics GPT(光学大模型),这是一款完全自主研发的国产模型
    的头像 发表于 01-26 09:59 2332次阅读
    上海交大发布国产光学大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    Claude Code在国内怎么使用?AI编程人员必看的完整指南!

    是什么? Claude Code是由 Anthropic 推出的新一代通用大模型产品,主打 安全性、可控性和复杂任务理解能力
    的头像 发表于 01-23 14:09 6678次阅读
    <b class='flag-5'>Claude</b> Code在国内怎么使用?AI编程人员必看的完整指南!

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT-5.1大
    的头像 发表于 11-13 15:49 893次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    Token (TPS)。 这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM),采用了广受欢迎的混合专家模型
    的头像 发表于 08-15 20:34 2607次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS推理

    阿里通义千问发布小尺寸模型Qwen3-4B,手机也能跑

    电子发烧友网综合报道 8月7日,阿里通义千问宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新模型已在魔搭社区
    的头像 发表于 08-12 17:15 7142次阅读
    阿里通义千问发布小尺寸<b class='flag-5'>模型</b>Qwen<b class='flag-5'>3-4</b>B,手机也能跑

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的3
    的头像 发表于 08-07 14:13 1.6w次阅读

    亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线

    北京2025年8月6日 /美通社/ -- 亚马逊云科技宣布,Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4,现已在Amazon Bedro
    的头像 发表于 08-06 19:42 843次阅读
    亚马逊云科技Amazon Bedrock<b class='flag-5'>模型</b>再更新,Anthropic最新版<b class='flag-5'>Claude4</b><b class='flag-5'>模型</b>现已上线

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23