0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT最强竞品Claude2来了:代码、GRE 成绩超越GPT-4,免费可用

数据分析与开发 来源:机器之心 2023-07-14 15:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

此次,Claude 2 除了一大波能力上的升级,更重要的是大家都可以用了。

今日,那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。 Claude 2 正式发布! 据介绍,Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强,并且可以产生更长的响应。 更重要的是,用户可以在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版本相同。

ead08c98-21f9-11ee-962d-dac502259ad0.png

机器之心在此前的文章中多次介绍过 Claude,它是由 OpenAI 离职人员创建的 Anthropic 公司打造的。在 ChatGPT 发布两个月后,该公司就迅速开发出了 Claude,可以完成摘要总结、搜索、协助创作、问答、编码等任务。 之后持续升级,五月份通过 100K Context Windows 将 Claude 的上下文窗口从 9k token 扩展到了 100k。 现在终于迎来了大版本更新。Anthropic 表示,Claude 2 基于此前从用户那里获得的反馈建议进行改进。 接下来看各方面能力细节。 Claude 2 在哪些方面得到了加强? 总的来说,Claude 2 注重提高以下能力:

Anthropic 致力于提高 Claude 作为编码助理的能力,Claude 2 在编码基准和人类反馈评估方面性能显著提升。

长上下文(long-context)模型对于处理长文档、少量 prompt 以及使用复杂指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token(Claude 2 已经扩展到 200K token,但目前发布版本仅支持 100K token)。

以前的模型经过训练可以编写相当短的回答,但许多用户要求更长的输出。Claude 2 经过训练,可以生成最多 4000 个 token 的连贯文档,相当于大约 3000 个单词。

Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练,可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。

虽然 Claude 的训练数据仍然主要是英语,但 Claude 2 的训练数据中非英语数据比例已经明显增加。

Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件,但它仍然可能会产生混淆。

该研究进行了一系列评估实验来测试 Claude 2 的性能水平,包括对齐评估和能力评估两部分。 在模型对齐方面,该研究针对大模型的三个关键要求做了具体评估,包括:遵循指令、生成内容有用(helpfulness);生成内容无害(harmlessness);生成内容准确、真实(honesty)。 人类反馈评估 大模型在生成过程中应该遵循人类提供的指令,这将让生成结果符合要求、实际有用。针对这一点,该研究对 Claude 2、Claude 1.3 和 Claude Instant 1.1 进行了实验评估,并使用经典的对弈水平评估指标 ——Elo 分数,几个模型的评估结果如下图 1 所示:

eb0c2ba4-21f9-11ee-962d-dac502259ad0.png

偏见评估 Bias Benchmark for QA(BBQ)是用于评估模型对人群偏见的常用基准。该研究在 BBQ 基准上进行实验评估,几种模型的实验结果如下图 2 所示:

eb3112c0-21f9-11ee-962d-dac502259ad0.png

下图 3 显示了在消除歧义的语境下几种模型回答 BBQ 基准中问题的准确性。值得注意的是,Claude 模型的准确率会比 Helpful-Only 模型低是因为模型会拒绝回答一些存在偏见的问题。

eb4aef38-21f9-11ee-962d-dac502259ad0.png

事实性评估 大模型有时会生成虚假混乱的信息,因此测试模型生成内容的事实性非常重要。TruthfulQA 是一个用于评估语言模型在对抗性环境中输出的准确性和真实性的基准,几种模型的测试结果如下图 4 所示:

eb6fc27c-21f9-11ee-962d-dac502259ad0.png

总的来说,Claude 2 在 HHH(在有用性(helpfulness)、无害性(harmlessness)、事实性(honesty)、)评估上的总体表现如下图 6 所示:

eb9818da-21f9-11ee-962d-dac502259ad0.png

在能力评估方面,该研究针对多语言翻译任务、上下文窗口、标准基准评估、资格水平考试几个方面对 Claude 2 展开评估实验。 多语言翻译 该研究选择涵盖 200 多种语言的翻译基准 Flores 200 来评估 Claude 2 的多语言翻译能力,其中包括低资源语言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的评估结果如下图 7 所示:

ebd3c4c0-21f9-11ee-962d-dac502259ad0.png

上下文窗口 今年早些时候,研究团队将 Claude 的上下文窗口从 9K token 扩展到了 100K token,现在 Claude 2 进一步扩展了上下文窗口, 达到 200K token,相当于约 150000 个单词。 为了证明 Claude 2 会实际使用完整的上下文,该研究测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:

ebf39da4-21f9-11ee-962d-dac502259ad0.png

不过,研究团队表示目前发布的版本仅支持 100K token 的上下文窗口,完整的上下文窗口将会集成到他们的产品中。 标准基准评估 该研究在几个标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:

ec0a6278-21f9-11ee-962d-dac502259ad0.png

值得注意的是,Claude 2 生成代码的能力有了明显的提升,在 Codex HumanEval 上的得分从 56% 上升到 71.2%。 资格水平考试 该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。 首先,Claude 2 在美国律师资格考试(Bar Exam)的多项选择题测试中得分率为 76.5%,高于 Claude 1.3 的 73.0%。

ec328bfe-21f9-11ee-962d-dac502259ad0.png

其次,研究团队还用美国研究生入学考试(GRE)测试了 Claude 2 的能力水平,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与达到了参加 GRE 考试的考生的中位数水平。

ec4477e2-21f9-11ee-962d-dac502259ad0.png

最后,该研究还在美国医师执照考试(USMLE)题目上测试了 Claude 2:

ec51e8c8-21f9-11ee-962d-dac502259ad0.png

Anthropic 表示,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。 官方示例及试用体验 我们先看 Anthropic 提供的一些官方示例。 1、编码能力:为静态地图添加交互式数据。 2、文本处理能力:总结文档、输出表格。这里 Claude 2 用上了 100K token 文本处理功能,可以在 prompt 窗口上传几百页的文档。 除了以上,机器之心也尝试了一些文本分析、数学推理和编写代码方面的示例。

ec6792ea-21f9-11ee-962d-dac502259ad0.png

试用地址:http://claude.ai 首先让 Claude 2 以目录形式总结一下「Claude 2 技术文档」的要点,总结得非常详细,对我们写这篇文章有帮助。

ec75281a-21f9-11ee-962d-dac502259ad0.png

再来两道数学推理题,Claude 2 只用一次就能搞定。

ecbf69fc-21f9-11ee-962d-dac502259ad0.png

eced1dd4-21f9-11ee-962d-dac502259ad0.png

最后测一些代码题,生成、检查和补全代码都不在话下。

ed19ff66-21f9-11ee-962d-dac502259ad0.png

ed53cdcc-21f9-11ee-962d-dac502259ad0.png

edab8012-21f9-11ee-962d-dac502259ad0.png

不过,Claude 2 仍不具备生成图片的多模态能力。

edebff02-21f9-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261511
  • 代码
    +关注

    关注

    30

    文章

    4941

    浏览量

    73148
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10072

原文标题:ChatGPT 最强竞品 Claude2 来了:代码、GRE 成绩超越 GPT-4,免费可用

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化

    Claude Opus 4Claude Sonnet 4。这两个模型旨在更好地遵循指令,在编写代码、解答复杂问题等任务中,能够更自主
    的头像 发表于 05-26 07:52 5562次阅读
    IT岗位天塌了!<b class='flag-5'>Claude</b> <b class='flag-5'>4</b>震撼发布:AI编程大模型再进化

    【RA4E2开发板评测】PWM 驱动舵机

      本篇使用 RA4E2 的 PWM 输出,驱动舵机转动,使用 RA4E2 驱动舵机非常方便,只要配置好 GPT PWM 模块,就能轻松实现角度控制。 硬件准备 1、RA
    发表于 09-09 15:13

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    项目01_I2C_OLED复制一份,重命名为02_PWM 查看原理图得知,P102引脚可用GPT功能。 点击configuration.xml文件,按下面几张图所示内容配置。 打开引脚配置界面(Pin
    发表于 09-01 15:20

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的3月份推出自然语言处理模型GPT-4之后,两年多时候后最受
    的头像 发表于 08-07 14:13 8756次阅读

    亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线

    分钟级完成。 将Claude Opus 4.1和Claude Sonnet 4引入Amazon Bedrock,为客户提供Anthropic最先进模型的选择,简化了客户借助企业
    的头像 发表于 08-06 19:42 577次阅读
    亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版<b class='flag-5'>Claude4</b>模型现已上线

    淘宝API实时监控,市场策略快人一步!

    在当今激烈的电商竞争中,实时掌握动态是企业制胜的关键。淘宝作为中国最大的电商平台,其开放API为商家提供强大的工具,帮助实现实时
    的头像 发表于 08-06 14:38 535次阅读

    CSS6404L 在物联网设备中的应用优势:低功耗高可靠的存储革新与对比

    CSS6404L 通过 “高集成度 + 低功耗 + 宽适应” 的组合特性,在容量、功耗、性能及场景兼容性上全面超越同类,尤其在需要兼顾长续航、高速传输与紧凑设计的物联网场景中,成为平衡成本与性能的理想选择。其自管理刷新、双模
    的头像 发表于 06-06 15:35 494次阅读
    CSS6404L 在物联网设备中的应用优势:低功耗高可靠的存储革新与<b class='flag-5'>竞</b><b class='flag-5'>品</b>对比

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23

    Claude 3.7:编码助手首选,claude api key如何申请获取与深度解析*

    Claude 3.7,这款被誉为“混合推理”先锋的AI模型迅速成为开发者社区的焦点。它巧妙地结合快速代码生成和深度
    的头像 发表于 03-24 09:43 1441次阅读
    <b class='flag-5'>Claude</b> 3.7:编码助手首选,<b class='flag-5'>claude</b> api key如何申请获取与深度解析*

    马斯克发布Grok 3大模型,超越GPT-4o

    多项benchmark测试中,Grok 3取得了比DeepSeek-v3、GPT-4o以及Gemini-2 pro更优的效果。这一成绩无疑彰显Grok 3在人工智能领域的卓越实力。
    的头像 发表于 02-19 13:50 720次阅读

    OpenAI简化大模型选择:萨姆·奥特曼制定路线图

    前的技术环境下,大模型被广泛应用于各种聊天机器人中,其中OpenAI的ChatGPT就是一个典型的例子。然而,对于大多数用户来说,选择最适合自己需求的AI模型却并非易事。OpenAI目前提供多种模型供用户选择,其中包括能够快速响应并提供答案的模型,如
    的头像 发表于 02-18 09:12 748次阅读

    OpenAI宣布GPT 4o升智计划

    近日,全球领先的人工智能公司OpenAI迎来了一项重要宣布。OpenAI的首席执行官Sam Altman正式揭晓GPT 4o的升智计划,这一消息立即引起了业界的广泛关注。 据Sam
    的头像 发表于 02-17 14:24 870次阅读

    ChatGPT Plus 2025新功能抢先看:如何订阅与使用全攻略

    的交互 ChatGPT Plus作为付费订阅服务,提供一系列增强功能和优势,让用户体验更上一层楼: 更强模型驱动 (GPT-4及更高版本):  订阅用户可访问性能更强、回答更准确、对话能力更复杂的模型(如
    的头像 发表于 02-13 19:59 2034次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4.5发布后不久
    的头像 发表于 02-13 13:43 1016次阅读

    如何在边缘端获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越 GPT-4o mini、GPT-4V、Gemini 1.5
    的头像 发表于 01-20 13:40 1105次阅读
    如何在边缘端获得<b class='flag-5'>GPT4</b>-V的能力:算力魔方+MiniCPM-V 2.6