0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Claude-3力压GPT-4荣膺最佳大语言模型

微云疏影 来源:综合整理 作者:综合整理 2024-03-28 15:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。

值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。

日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。

分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。

自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。

考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。

相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110329
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11266
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16730
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化

    电子发烧友网报道(文 / 吴子鹏)5 月 23 日凌晨,著名大模型平台 Anthropic 召开首届开发者大会,重磅发布最新大模型 ——Claude 4
    的头像 发表于 05-26 07:52 5577次阅读
    IT岗位天塌了!<b class='flag-5'>Claude</b> <b class='flag-5'>4</b>震撼发布:AI编程大<b class='flag-5'>模型</b>再进化

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的3
    的头像 发表于 08-07 14:13 9139次阅读

    亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线

    北京2025年8月6日 /美通社/ -- 亚马逊云科技宣布,Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4,现已在Amazon Bedro
    的头像 发表于 08-06 19:42 587次阅读
    亚马逊云科技Amazon Bedrock<b class='flag-5'>模型</b>再更新,Anthropic最新版<b class='flag-5'>Claude4</b><b class='flag-5'>模型</b>现已上线

    NVIDIA使用Qwen3系列模型最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家
    的头像 发表于 05-08 11:45 2635次阅读
    NVIDIA使用Qwen<b class='flag-5'>3</b>系列<b class='flag-5'>模型</b>的<b class='flag-5'>最佳</b>实践

    企业级Claude API应用方案!完整调用攻略来袭:带你解锁Claude 3.5/3.7大模型

    企业级Claude API大模型应用开发,完整调用攻略来袭,带你解锁Claude 3.5/3.7大模型,满足企业级生产!无需魔法,无需外币充值,无需担心封号问题
    的头像 发表于 03-19 19:55 1614次阅读
    企业级<b class='flag-5'>Claude</b> API应用方案!完整调用攻略来袭:带你解锁<b class='flag-5'>Claude</b> 3.5/3.7大<b class='flag-5'>模型</b>

    ​VLM(视觉语言模型)​详细解析

    的详细解析: 1. 核心组成与工作原理 视觉编码器 :提取图像特征,常用CNN(如ResNet)或视觉Transformer(ViT)。 语言模型 :处理文本输入/输出,如GPT、BERT等,部分
    的头像 发表于 03-17 15:32 7720次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    用PaddleNLP在4060单卡上实践大模型预训练技术

    手把手教您如何在单张消费级显卡上,利用PaddleNLP实践OpenAI的GPT-2模型的预训练。GPT-2的预训练关键技术与流程与GPT-4等大参数
    的头像 发表于 02-19 16:10 2151次阅读
    用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b>预训练技术

    OpenAI简化大模型选择:萨姆·奥特曼制定路线图

    前的技术环境下,大模型被广泛应用于各种聊天机器人中,其中OpenAI的ChatGPT就是一个典型的例子。然而,对于大多数用户来说,选择最适合自己需求的AI模型却并非易事。OpenAI目前提供了多种模型供用户选择,其中包括能够快速
    的头像 发表于 02-18 09:12 760次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4
    的头像 发表于 02-13 13:43 1046次阅读

    OpenAI即将推出GPT-5模型

    先进技术,其中包括备受瞩目的o3工具。通过整合这些技术,GPT-5模型将实现更加强大的功能和性能。 值得一提的是,GPT-5模型将被广泛应用
    的头像 发表于 02-13 11:21 929次阅读

    OpenAI报告GPT-4o及4o-mini模型性能下降,正紧急调查

    ,自发现这一问题以来,公司已经迅速启动了内部调查机制,以尽快查明导致模型性能下降的具体原因。OpenAI强调,他们对此次事件高度重视,并将全力以赴解决这一问题,以确保用户能够继续享受到高质量的AI服务。 GPT-4o和4o-mi
    的头像 发表于 01-23 10:22 1116次阅读

    OpenAI:GPT-4o及4o-mini模型性能下降,正展开调查

    ,并承诺将尽快发布最新的调查结果和解决方案。这一事件不仅对OpenAI自身的技术声誉产生了影响,也引发了业界对于大型语言模型稳定性和可靠性的担忧。 GPT-4o及4o-mini作为Op
    的头像 发表于 01-21 10:34 958次阅读

    如何在边缘端获得GPT4-V的能力:算魔方+MiniCPM-V 2.6

    GPT4-V的能力:MiniCPM-V 2.6 。 MiniCPM-V 2.6是MiniCPM-V系列最新、性能最佳模型,基于SigLip-400M和Qwen2-7B构建,共8B参数。在最新版
    的头像 发表于 01-20 13:40 1121次阅读
    如何在边缘端获得<b class='flag-5'>GPT4</b>-V的能力:算<b class='flag-5'>力</b>魔方+MiniCPM-V 2.6

    国产大模型DeepSeek推出DeepSeek-V3

    众所周知,过去一年间,大语言模型(LLM)领域经历了翻天覆地的变化... 回望2023年底,OpenAI的GPT-4还是一座难以逾越的高峰,其他AI实验室都在思考同一个问题:OpenAI究竟掌握了
    的头像 发表于 01-06 10:51 4257次阅读
    国产大<b class='flag-5'>模型</b>DeepSeek推出DeepSeek-V<b class='flag-5'>3</b>

    一文说清楚什么是AI大模型

    DALL-E)、科学计算模型(如 AlphaFold)以及多模态模型。这些模型通过海量数据训练,展现出高度的泛用性。 比较有代表性的大语言模型
    的头像 发表于 01-02 09:53 4024次阅读
    一文说清楚什么是AI大<b class='flag-5'>模型</b>