OpenAI与Anthropic对战，Claude Opus 4.6与GPT-5.3-Codex同日发布-电子发烧友网

电子发烧友网报道北京时间2月6日凌晨，Anthropic与OpenAI分别推出了新版本基础大模型——Claude Opus 4.6和GPT-5.3-Codex。

Claude Opus 4.6：重大升级，表现卓越

Claude Opus 4.6是Anthropic对其旗舰人工智能模型的一次关键升级。此版本规划更谨慎，能维持更长时间自主工作流程，在企业关键基准测试中超越了包括GPT-5.2在内的众多竞争对手。

新模型首次拥有100万token的上下文窗口，极大提升了AI处理和推理信息的能力。同时，Anthropic在Claude Code中引入类似Kimi K2.5的“智能体团队”研究预览功能，允许多个AI智能体同时处理编码项目不同方面并自主协调。

Opus 4.6可将增强功能应用于多种日常工作任务，如运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork环境中，它能自主执行多任务，代表人类运用各项技能。

在多项评估中，Opus 4.6成绩斐然。在智能体编码评估工具Terminal-Bench 2.0中取得最高分，在复杂多学科推理测试“人类最后的考试”中领先其他前沿模型。在GDPval-AA测试中，其表现比GPT-5.2高出约144个Elo分数，比前代Claude Opus 4.5高出190分。此外，在衡量模型在线查找难寻信息能力的BrowseComp测试中，它也优于其他模型。

Opus 4.6现已在claude.ai、API及所有主流云平台上线，定价不变，每百万token为5美元/25美元。针对大模型常见的“上下文腐烂”问题，Opus 4.6性能显著优于前代。在MRCR v2的8针1M变体测试中，Opus 4.6得分76%，而Sonnet 4.5仅18.5%，这表明其在保持性能的同时，可利用的上下文信息量大幅提升。

为证明其强大智能体能力，Anthropic研究员用16个智能体从零构建基于Rust的C语言编译器。最终AI输出10万行代码，可编译Linux内核，耗资2万美元，历经2000多次Claude Code会话、两周时间完成。该编译器能在x86、ARM和RISC-V上构建可启动的Linux 6.9，通过GCC 99%的压力测试，可编译FFmpeg、Redis等软件，还能编译并运行Doom游戏。代码可在相关GitHub链接查看。虽无人类编写代码，但研究人员在测试设计、构建CI管道等方面发挥了重要作用，这似乎预示着未来AI工作流程中人类角色的转变。

GPT-5.3-Codex：编程强模，潜力无限

OpenAI推出的GPT-5.3-Codex号称世界上最强大的智能体编程模型。

在编程基准测试中，GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0中取得SOTA成绩，在OSWorld和GDPval等智能体能力和真实世界任务测评中，较GPT-5.2-Codex有所提升。不过，OpenAI参加的基准测试数量较少，且与Claude Opus 4.6重叠不多，得分仅供参考。在Terminal-Bench 2.0上，GPT-5.3-Codex得分比Claude Opus 4.6高11.9%。

为展示编程能力，OpenAI展示了一款由GPT-5.3-Codex打造的赛车游戏，游戏有多辆赛车比拼、8张地图，还能用空格键使用道具，虽画风简陋但完成度高，体验链接已给出。

此外，GPT-5.3-Codex是OpenAI首个在自我创建中发挥关键作用的模型，其早期版本助力团队加速模型开发。它结合了GPT-5.2-Codex的编程能力和GPT-5.2的推理能力与专业知识储备，速度提升25%。这意味着它不仅可用于编程，还能胜任软件工程中的调试、部署等工作，甚至可用于制作PPT、Excel、Word等，从OpenAI分享案例看效果良好。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

OpenAI

OpenAI

+关注

关注
9

文章
1263

浏览量
10329
AI大模型

AI大模型

+关注

关注
0

文章
420

浏览量
1054

搜索历史

OpenAI与Anthropic对战，Claude Opus 4.6与GPT-5.3-Codex同日发布

评论