电子发烧友网报道 北京时间2月6日凌晨,Anthropic与OpenAI分别推出了新版本基础大模型——Claude Opus 4.6和GPT-5.3-Codex。

Claude Opus 4.6:重大升级,表现卓越
Claude Opus 4.6是Anthropic对其旗舰人工智能模型的一次关键升级。此版本规划更谨慎,能维持更长时间自主工作流程,在企业关键基准测试中超越了包括GPT-5.2在内的众多竞争对手。
新模型首次拥有100万token的上下文窗口,极大提升了AI处理和推理信息的能力。同时,Anthropic在Claude Code中引入类似Kimi K2.5的“智能体团队”研究预览功能,允许多个AI智能体同时处理编码项目不同方面并自主协调。
Opus 4.6可将增强功能应用于多种日常工作任务,如运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork环境中,它能自主执行多任务,代表人类运用各项技能。
在多项评估中,Opus 4.6成绩斐然。在智能体编码评估工具Terminal-Bench 2.0中取得最高分,在复杂多学科推理测试“人类最后的考试”中领先其他前沿模型。在GDPval-AA测试中,其表现比GPT-5.2高出约144个Elo分数,比前代Claude Opus 4.5高出190分。此外,在衡量模型在线查找难寻信息能力的BrowseComp测试中,它也优于其他模型。
Opus 4.6现已在claude.ai、API及所有主流云平台上线,定价不变,每百万token为5美元/25美元。针对大模型常见的“上下文腐烂”问题,Opus 4.6性能显著优于前代。在MRCR v2的8针1M变体测试中,Opus 4.6得分76%,而Sonnet 4.5仅18.5%,这表明其在保持性能的同时,可利用的上下文信息量大幅提升。
为证明其强大智能体能力,Anthropic研究员用16个智能体从零构建基于Rust的C语言编译器。最终AI输出10万行代码,可编译Linux内核,耗资2万美元,历经2000多次Claude Code会话、两周时间完成。该编译器能在x86、ARM和RISC-V上构建可启动的Linux 6.9,通过GCC 99%的压力测试,可编译FFmpeg、Redis等软件,还能编译并运行Doom游戏。代码可在相关GitHub链接查看。虽无人类编写代码,但研究人员在测试设计、构建CI管道等方面发挥了重要作用,这似乎预示着未来AI工作流程中人类角色的转变。
GPT-5.3-Codex:编程强模,潜力无限
OpenAI推出的GPT-5.3-Codex号称世界上最强大的智能体编程模型。
在编程基准测试中,GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0中取得SOTA成绩,在OSWorld和GDPval等智能体能力和真实世界任务测评中,较GPT-5.2-Codex有所提升。不过,OpenAI参加的基准测试数量较少,且与Claude Opus 4.6重叠不多,得分仅供参考。在Terminal-Bench 2.0上,GPT-5.3-Codex得分比Claude Opus 4.6高11.9%。
为展示编程能力,OpenAI展示了一款由GPT-5.3-Codex打造的赛车游戏,游戏有多辆赛车比拼、8张地图,还能用空格键使用道具,虽画风简陋但完成度高,体验链接已给出。
此外,GPT-5.3-Codex是OpenAI首个在自我创建中发挥关键作用的模型,其早期版本助力团队加速模型开发。它结合了GPT-5.2-Codex的编程能力和GPT-5.2的推理能力与专业知识储备,速度提升25%。这意味着它不仅可用于编程,还能胜任软件工程中的调试、部署等工作,甚至可用于制作PPT、Excel、Word等,从OpenAI分享案例看效果良好。

Claude Opus 4.6:重大升级,表现卓越
Claude Opus 4.6是Anthropic对其旗舰人工智能模型的一次关键升级。此版本规划更谨慎,能维持更长时间自主工作流程,在企业关键基准测试中超越了包括GPT-5.2在内的众多竞争对手。
新模型首次拥有100万token的上下文窗口,极大提升了AI处理和推理信息的能力。同时,Anthropic在Claude Code中引入类似Kimi K2.5的“智能体团队”研究预览功能,允许多个AI智能体同时处理编码项目不同方面并自主协调。
Opus 4.6可将增强功能应用于多种日常工作任务,如运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork环境中,它能自主执行多任务,代表人类运用各项技能。
在多项评估中,Opus 4.6成绩斐然。在智能体编码评估工具Terminal-Bench 2.0中取得最高分,在复杂多学科推理测试“人类最后的考试”中领先其他前沿模型。在GDPval-AA测试中,其表现比GPT-5.2高出约144个Elo分数,比前代Claude Opus 4.5高出190分。此外,在衡量模型在线查找难寻信息能力的BrowseComp测试中,它也优于其他模型。
Opus 4.6现已在claude.ai、API及所有主流云平台上线,定价不变,每百万token为5美元/25美元。针对大模型常见的“上下文腐烂”问题,Opus 4.6性能显著优于前代。在MRCR v2的8针1M变体测试中,Opus 4.6得分76%,而Sonnet 4.5仅18.5%,这表明其在保持性能的同时,可利用的上下文信息量大幅提升。
为证明其强大智能体能力,Anthropic研究员用16个智能体从零构建基于Rust的C语言编译器。最终AI输出10万行代码,可编译Linux内核,耗资2万美元,历经2000多次Claude Code会话、两周时间完成。该编译器能在x86、ARM和RISC-V上构建可启动的Linux 6.9,通过GCC 99%的压力测试,可编译FFmpeg、Redis等软件,还能编译并运行Doom游戏。代码可在相关GitHub链接查看。虽无人类编写代码,但研究人员在测试设计、构建CI管道等方面发挥了重要作用,这似乎预示着未来AI工作流程中人类角色的转变。
GPT-5.3-Codex:编程强模,潜力无限
OpenAI推出的GPT-5.3-Codex号称世界上最强大的智能体编程模型。
在编程基准测试中,GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0中取得SOTA成绩,在OSWorld和GDPval等智能体能力和真实世界任务测评中,较GPT-5.2-Codex有所提升。不过,OpenAI参加的基准测试数量较少,且与Claude Opus 4.6重叠不多,得分仅供参考。在Terminal-Bench 2.0上,GPT-5.3-Codex得分比Claude Opus 4.6高11.9%。
为展示编程能力,OpenAI展示了一款由GPT-5.3-Codex打造的赛车游戏,游戏有多辆赛车比拼、8张地图,还能用空格键使用道具,虽画风简陋但完成度高,体验链接已给出。
此外,GPT-5.3-Codex是OpenAI首个在自我创建中发挥关键作用的模型,其早期版本助力团队加速模型开发。它结合了GPT-5.2-Codex的编程能力和GPT-5.2的推理能力与专业知识储备,速度提升25%。这意味着它不仅可用于编程,还能胜任软件工程中的调试、部署等工作,甚至可用于制作PPT、Excel、Word等,从OpenAI分享案例看效果良好。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
OpenAI
+关注
关注
9文章
1262浏览量
10323 -
AI大模型
+关注
关注
0文章
419浏览量
1054
发布评论请先 登录
相关推荐
热点推荐
GPT-5震撼发布:AI领域的重大飞跃
电子发烧友网报道(文/李弯弯)2025年8月8日凌晨1点,OpenAI以一场长达1小时的线上发布会正式推出GPT-5。这场被业界称为“AI进化分水岭”的发布,终结了长达两年的技术猜测,
IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化
电子发烧友网报道(文 / 吴子鹏)5 月 23 日凌晨,著名大模型平台 Anthropic 召开首届开发者大会,重磅发布最新大模型 ——Claude 4。Claude 4 包含两个版本
OpenAI发布多款产品
近期,OpenAI在短短四天内密集打出三张牌—— **GPT-5.5 Instant升级为ChatGPT默认模型、GPT-5.5-Cyber瞄准网络安全垂直战场、ChatGPT新增"可信
OpenAI战略革新:Codex融入GPT-5.5开启全能AI编程新纪元
近期,OpenAI正式将Codex核心能力全面整合至GPT-5.5主模型,终结独立编程分支历史。技术测试显示,整合后的GPT-5.5在Terminal-Bench 2.0基准测试中以8
Codex AI编程实战课资源
AI 编程时代来临,Codex 实战带你抢占未来开发先机 站在 2026 年的技术奇点,编程的边界正在被无限拓宽。随着 OpenAI Codex 及其后续迭代模型从单纯的“代码补全工具”进化为具备
从Codex操控Mac到超级应用:OpenAI全面打响AI端侧入口“战争”?
台“使用电脑上的所有应用”,并支持多代理同步工作。OpenAI特别强调“后台”属性,意味着智能体不会与用户“抢”电脑。而且,Codex现在也可以使用gpt-image-1.5模型来生成和迭代图像,开发者无需为了生成AI图像而切换
泰芯半导体与Claude Opus AI重构IPC量产速度天花板
最近,一款限定版1080P智能摄像头在行业圈子里引发了不少讨论。产品外壳上印着 “AI-Driven Design” 和 “Power by Claude Opus 4.6” 两行字——这两行标注
大模型 ai coding 比较
:2026-02-19排序依据 :综合能力从高到低:Claude Opus 4.6 > Kimi K2.5 > 智谱GLM-5 > Claude Sonnet 4.
发表于 02-19 13:43
GitHub王炸:AI编程进入"多智能体时代",1.8亿人彻夜未眠
微软旗下代码托管平台GitHub正式集成Claude与Codex,开发者可在统一工作流中自由切换顶级AI助手 2026年2月5日,微软旗下GitHub宣布重大战略升级:正式将Anthropic
GPT-5.1发布 OpenAI开始拼情商
OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的
OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT
外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是
亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线
北京2025年8月6日 /美通社/ -- 亚马逊云科技宣布,Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4,现已在Amazon Bedro
OpenAI发布2款开源模型
OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt
OpenAI与Anthropic对战,Claude Opus 4.6与GPT-5.3-Codex同日发布
评论