0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Claude-3力压GPT-4荣膺最佳大语言模型

微云疏影 来源:综合整理 作者:综合整理 2024-03-28 15:23 次阅读

近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。

值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。

日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。

分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。

自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。

考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。

相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5859

    浏览量

    103261
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10044
  • GPT
    GPT
    +关注

    关注

    0

    文章

    301

    浏览量

    14869
收藏 人收藏

    评论

    相关推荐

    Anthropic Claude 3大模型重磅来袭!微美全息(WIMI.US)全力冲刺加入GPT革命!

    在AI逻辑基准测试中超过了ChatGPT-4。 Claude 3 Opus 超越 GPT-4   Anthropic声称,Claude 3也是多模态大模型,具有强大的“视觉能力”,因此
    的头像 发表于 03-27 10:59 132次阅读
    Anthropic <b class='flag-5'>Claude</b> 3大<b class='flag-5'>模型</b>重磅来袭!微美全息(WIMI.US)全力冲刺加入<b class='flag-5'>GPT</b>革命!

    微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

    起初,Copilot作为Bing Chat AI助手推出,初期采用GPT-3.5模型,随后升级至GPT-4取得显著进步,如今再次更新至性能卓越的GPT-4 Turbo
    的头像 发表于 03-13 13:42 249次阅读

    Anthropic 发布 Claude 3 系列大模型和 AI 助手

    Claude 3 是什么?   Claude 3 是人工智能初创公司 Anthropic 开发的新一代大型语言模型,旨在提供卓越的认知能力和智能化任务处理。
    的头像 发表于 03-08 12:29 203次阅读

    新火种AI|秒杀GPT-4,狙杀GPT-5,横空出世的Claude 3振奋人心!

    GPT-4被拉下神坛, Claude 3很可能对GPT-4实现全方位的碾压 。 Anthropic发布3个模型,全方位实现
    的头像 发表于 03-06 22:22 323次阅读
    新火种AI|秒杀<b class='flag-5'>GPT-4</b>,狙杀<b class='flag-5'>GPT</b>-5,横空出世的<b class='flag-5'>Claude</b> 3振奋人心!

    全球最强大模型易主,Claude 3全面超越GPT-4

    由谷歌和亚马逊支持的AI初创公司Anthropic近日发布了其全新的Claude 3模型家族,该家族包含三个重要成员:Claude 3 Opus、Sonnet和Haiku。每个模型的名
    的头像 发表于 03-06 10:44 327次阅读

    全球最强大模型易主,GPT-4被超越

    近日,AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型,其中包括最强版Claude 3 Opus。据该公司称,Claude 3系列在推理、数学、编码、多
    的头像 发表于 03-05 09:58 271次阅读

    Anthropic发布Claude 3系列,超越GPT-4和Gemini Ultra

    人工智能领域的领军企业Anthropic宣布推出全新的Claude 3系列模型,包括Claude 3 Opus、Claude 3 Sonnet和Cl
    的头像 发表于 03-05 09:43 212次阅读

    全球最强大模型易主:GPT-4被超越,Claude 3系列崭露头角

    近日,人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型,该系列模型在多模态和语言能力等关键指标上展现出卓越性能,成功超越了此前被广泛认为是
    的头像 发表于 03-05 09:42 246次阅读

    GPT-4没有推理能力吗?

    今年三月,OpenAI 重磅发布了 GPT-4模型,带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中,「
    的头像 发表于 08-11 14:20 671次阅读
    <b class='flag-5'>GPT-4</b>没有推理能力吗?

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得订阅费吗 国内怎么付费?

    每月20美元)更智能、更准确。 OpenAI将GPT-4描述为“比其前身GPT-3.5先进10倍”。 自从OpenAI的大语言模型(LLM)GPT-
    的头像 发表于 08-02 12:09 3005次阅读
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得订阅费吗 国内怎么付费?

    OpenAI宣布GPT-4 API全面开放使用!

    OpenAI 在博客文章中写道:“自 3 月份以来,数百万开发者请求访问 GPT-4 API,并且利用 GPT-4 的创新产品范围每天都在增长。” “我们设想基于对话的模型未来可以支持任何用例。”
    的头像 发表于 07-12 14:55 879次阅读

    GPT-4已经会自己设计芯片了吗?

      GPT-4已经会自己设计芯片了!芯片设计行业的一个老大难问题HDL,已经被GPT-4顺利解决。并且,它设计的130nm芯片,已经成功流片。 GPT-4,已经可以帮人类造芯片了! 只用简单的英语
    的头像 发表于 06-20 11:51 607次阅读
    <b class='flag-5'>GPT-4</b>已经会自己设计芯片了吗?

    最新、最强大的模型GPT-4将向美国政府机构开放

    最新、最强大的模型GPT-4将向美国政府机构开放 此前微软已向其商业客户提供了OpenAI模型,现在微软宣布将向azure government云计算客户开放openai的人工智能模型
    的头像 发表于 06-08 20:15 1218次阅读

    可商用多语言聊天LLM开源,性能直逼GPT-4

    在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中,GPT-4 的胜率为 54.75%,BLOOMChat 的胜率为 45.25%,稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比
    的头像 发表于 05-25 11:14 724次阅读
    可商用多<b class='flag-5'>语言</b>聊天LLM开源,性能直逼<b class='flag-5'>GPT-4</b>

    GPT-4模型结构和训练方法

    GPT-4 的发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展。
    的头像 发表于 05-22 15:21 2009次阅读
    <b class='flag-5'>GPT-4</b> 的<b class='flag-5'>模型</b>结构和训练方法