0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解析陈天桥的 AGI 工程标尺:为何“300步”推理是生与死的分界线?

话说科技 来源:话说科技 作者:话说科技 2026-02-10 13:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 领域,我们听惯了万亿参数、Context Window(上下文窗口)这些指标,但盛大集团创始人陈天桥提出了一个全新的工程度量衡:在300步复杂推理后,依然维持99%的正确率 。

为什么要死磕“300步”?这背后是残酷的概率学。陈天桥将推理的最小单位定义为“标准原子步”(SIU),即每一步只执行单一逻辑,且可被工具检验 。现状是,即便大模型单步准确率达到惊人的 98%,在经过 300 步的链式反应后,端到端的成功率也会指数级衰减至 0.23% 。这意味着,依靠当前 Transformer 架构的“概率预测”来解决长链路科学问题(如新药研发、工程设计),在数学上是死路一条。

陈天桥的解决方案极具工程思维:将推理过程解耦为“逻辑生成层”与“检验层” 。

生成层(想): 负责将大问题递归拆解为原子操作;

检验层(查): 对每一个原子步进行外部验证(仿真、工具、数据)。

这种架构要求 AI 必须具备“可累积的长期记忆”和“自我纠错”能力 。MiroMind 的 BrowseComp 实践证明了这条路径的可行性:仅用 235B 参数的小模型,通过反复的 Agent/环境交互和纠错,击败了依赖一次性生成的更大模型 。

这标志着 AGI 的研发重点正在发生转移:从训练更会“蒙”的大模型,转向构建一个高可信、可审计的通用推理引擎 。对于开发者而言,未来的核心竞争力或许不在于 Prompt Engineering,而在于构建能够把每一步推理“钉死”的工具链验证系统。

以下为陈天桥博文全文:

言语道断,因果自现——我心中的AGI是什么

过去这一两年,我们亲眼看着大模型的语言能力以肉眼可见的速度跃迁:写作、总结、对话、问答、解题,越来越“像人”;HLE 之类的评测分数一再刷新纪录,连奥数级别的题目也能被系统性攻克。于是一个看上去顺理成章的结论开始流行:“所谓 AGI、大一统的通用智能,大概也就差不多了。”但在我看来,这是一场美丽的误会。

为了把这件事讲清楚,我借用一个比喻:今天主流的大模型,更像是“文科大模型”。它以语言生成与文本一致性为中心,把知识组织成“像真的叙述”和“像对的答案”。它的价值在于“模拟”:它能理解我们的委婉与修辞,能生成优雅的文字、逼真的对话、动人的故事;它会在教育、沟通、内容生产上变成新的基础设施,像电、像水,润物无声。但是即便它能解奥数、HLE 也能拿高分,这些胜利也大多发生在封闭系统里:题目定义明确、规则固定、对错可判、反馈即时。

但我一直坚信,人类真正需要 AI 去对抗的,是衰老、疾病、能源、材料、气候这些问题;这些战场不在考试题的封闭世界里,没有标准答案等你生成,只有现象、噪声、偏差、缺失变量与缓慢反馈;正确不是“写出来”的,而是被外部世界“确认出来”的。封闭世界的高分,证明了推理工程的成熟,但并不代表已经拥有了稳定的知识生产机制;高水平解题固然是走向发现的必要基础,却远非充分条件,因为真正决定未来的,不是封闭的叙述,而是那条冰冷而精确的因果红线;它关心的不是“说得对不对劲”,而是“这个假设能不能被现实否决或确认”;它的终极产物不是新作品,而是新知识——新的定理、新的材料、新的药物、新的工艺、新的工程结构。我把这种范式称为“理科大模型”。它的价值在于“发现”。

需要澄清一点:我说的“文科/理科”,不是两种模型的物种差异,而是两种默认动作的差异:文科大模型倾向给出一个“看起来不错的最终答案”,理科大模型倾向先给出一组可证伪的假设,并同时给出把这些假设变成证据的路径;文科模型在不确定处更容易把答案“凑圆”,理科模型在不确定处更像本能地停一下,然后去查证、去拆解,把问题拆成可验证的小问题;理科模型把因果当作第一公民,回答“条件改变后会发生什么”;理科模型还必须有可累积的长期记忆,把每一次验证得到的结论以可追溯的方式写回去。总之,理科模型更像一个握着手术刀的外科医生:在无数方案里,识别哪一刀真正触及因果红线;它知道,一旦切下去,现实会给出最诚实、也最残酷的反馈,形成真正的因果闭环——这种对“真实代价”的敬畏,正是两种范式之间最本质的鸿沟。

所以,真正决定 AGI 应该是什么,取决于我们的价值取向:我们究竟更在意一个能理解所有修辞,还能取代人类工作的“灵魂伴侣”,还是更迫切地需要一个能帮我们撕开迷雾、照亮未知,创造价值的“因果明镜”?我认为是后者。所以,实现 AGI 不是为了再造一个更会聊天的会生成的系统,而是为了打造一种“会发现”的智能。

让我们带着这样的价值观去审视一下现有的 AGI 定义的主要流派。一种是行为主义范式,源于图灵测试,认为 AGI 的标准是“机器表现出的行为与人类无法区分”。这是目前大众最直观的评判标准。但如果一个 AI 只是在模仿人类说话,它永远无法告诉我们那些人类还没发现的真理。第二种是功能主义范式。以 OpenAI 为代表,定义 AGI 为“在大多数具有经济价值的工作中超越人类的自适应系统”,侧重于对人类劳动力的替代能力。但人类文明的每一次飞跃,都不是靠把旧工作做得更快,而是靠发现前所未有的新规律。第三种是能力分级范式。以 DeepMind 为代表,将 AGI 分为从 "Emerging" 到 "Superhuman" 的五个层级,核心指标是在广泛且未见过的任务中的“泛化能力”与“表现分值”。可现实世界不是考场,没有标准答案,真正的智慧是要在没有考卷的地方,自己找到那条正确的路。当然还有一些其他的范式都或多或少存在上述问题。

那么我心目中 AGI 目标究竟要做什么?用一句话概括:它是一个高可信、可验证、可纠错的通用推理引擎。在工程上能够做到三百步以上的复杂推理后,依然维持接近 99% 级别的整体正确率,并通过形式化和工具链把每一步推理“钉死”为可检查的证据,最终对任意复杂问题给出闭环解决方案。

为什么我们死磕“300 步”?我们必须先定义推理的最小单位——标准原子步(SIU, Standard Inference Unit),作为可审计的基本推理单元。每一步只执行单一逻辑操作,依赖最小必要输入,其结果可以通过工具或规则直接检验。按照这个标准,现在的大模型单步推理准确率最高能冲到 98%,哪怕每一步都能做到这个最高水平,300 步后的端对端成功率也只有 0.23%,已经接近归零。这意味着在 300 步之后,概率和运气基本失效,系统必须依赖可检验的推理与外部反馈闭环,而不是靠“看起来合理”的续写去蒙混过关。所以我认为 300 步是独立解决复杂现实问题的“跨度起点”。

为什么 99% 必须是硬杠?因为发现式系统不是用来“聊天”,而是要进入现实成本区间:实验、工程、医疗、决策。低一个点的可靠性,就意味着高频的错误下注;而现实世界的错误,不是“答错题”,而是浪费实验窗口、烧掉工程预算、甚至造成不可逆的损耗。99% 不是面子指标,而是“可质押、可签字”的门槛。

所以,我心目中的 AGI,是能在 300 步的逻辑长征中,靠自我纠错熬过“概率死亡”,最终抵达地图之外的起点。从这里开始,AGI 就可以在科学、工程、决策规划等任意领域里,作为一个可审计、可验证的通用问题求解器存在。

当然,我并不认为这是一条“喊口号就能到达”的路线。把目标钉在“300 步仍保持 99% 可靠性”,本质上是在主动面对三个工程硬点:长链误差累积、开放世界验证缺口、以及组合爆炸下的预算约束。正因如此,我们在工程上必须进行解剖,将推理过程分为两层:逻辑生成层与检验层。生成层负责“想”:将大问题递归地拆解,直到细化为原子级操作,我们还要做检验层负责“查”:对每一个原子步通过工具、仿真或外部数据逐一验证。一旦某一步不过关,系统就在局部进行回退和重生成,而不是推翻整条推理链。

MiroMind 已经在这条路走出了第一步。以 BrowseComp 为例,MiroMind 仅用 235B 参数模型就给出了 SOTA 的成绩,它的意义不在于“分数本身”,而在于证明了一个工程事实:我们正在把推理从“单次生成”推进到“时间序列上的反复求证”。更具体地说,我们不是依赖一次性长链思考去赌对答案,而是训练模型在更深、更频繁的 agent/环境交互中不断获取外部反馈并纠错,让推理过程逐步变成可审计的证据链。对我们而言,这就是“通用求解器”的第一块地基,然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。这个过程沉默、缓慢、严谨、甚至有点残酷,它抛弃了人类语言的精妙模仿,却在枯燥、严苛、却能被现实反复复现的因果闭环中,缓慢破土而出,即使有耐心资本的加持和理想主义的坚守,这也会是一个非常痛苦的过程。

佛经里有个词,叫“大圆镜智”。说的是一个人的心若能修到像一面大圆镜,就能如实照见万物因果,不被尘埃遮蔽,不被偏见扭曲,这是智慧的最高境界。我对这个智慧一直很向往,甚至创办的科普视频号也取名叫做大圆镜。而我心中的 AGI 就是一个无限接近“大圆镜智”的智能系统,不迷恋漂亮的语言,而是追问事实的真相是什么;不急着给出答案,而是去求证背后的因果是什么。在一个被语言和叙事塞满的 AI 时代,我们需要一面只对“因果和真相”负责的镜子。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302622
  • Agi
    Agi
    +关注

    关注

    0

    文章

    104

    浏览量

    10857
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    300W高可靠绿色医疗电源RPS - 300系列解析

    300W高可靠绿色医疗电源RPS - 300系列解析 作为电子工程师,在医疗设备电源设计领域不断探索更可靠、更高效的解决方案是我们的重要任务。今天,就来详细
    的头像 发表于 04-05 16:15 666次阅读

    300W工业1U ATX电源:IPC-300A与IPC-300B的技术解析

    300W工业1U ATX电源:IPC-300A与IPC-300B的技术解析 在工业PC电源设计领域,300W工业1U ATX电源是一种常见且
    的头像 发表于 04-05 09:15 269次阅读

    世界模型才AGI是唯一出路?图灵奖得主杨立昆炮轰大模型

    Agi
    江苏易安联
    发布于 :2026年04月02日 13:43:11

    德州仪器赋能测试测量推动芯片持续创新

    一辆自动驾驶汽车以每小时 35 英里的速度驶向路口,其激光雷达系统探测到前方有障碍物。能否精准测出与障碍物的距离是 165 英尺还是 167 英尺,将决定车辆能否及时平稳制动。多出来的这 2 英尺,可能就是安全与灾难的分界线
    的头像 发表于 03-18 10:43 553次阅读
    德州仪器赋能测试测量推动芯片持续创新

    天桥:模仿人类不是AI的正确方向

    在人工智能技术迈入深水区的2026年春节前夕,天桥首次向旗下MiroMind全体员工发布了一封题为《我如何和AGI公司一起成长》的内部信。在这封信中,
    的头像 发表于 02-06 09:17 621次阅读

    DeepMind CEO揭示AGI的现实路径与科学革命·下

    Agi
    江苏易安联
    发布于 :2026年01月28日 13:42:33

    DeepMind CEO揭示AGI的现实路径与科学革命

    Agi
    江苏易安联
    发布于 :2026年01月26日 13:40:23

    面对AI降维打击,天桥的全新解法:人类必须“肉身进化”

    “坚船利炮已经出现在地平线上,而我们还坚持用大刀长矛守港口。” 这是天桥在最新文章中对当前人类处境的惊人比喻。这里的“坚船利炮”,指的是正在爆发的人工智能。与主流观点担忧AI抢走工作不同,
    的头像 发表于 01-16 17:11 1076次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    复制人类智能的AI---AGI。 走向AGI的五个层次发现阶段: ①L1,聊天机器人:具备基础的对话能力,能够理解和回应简单的文本输入 ②L2,推理者:具备基本的逻辑推理能力,能够分析
    发表于 09-18 15:31

    《AI芯片:科技探索与AGI愿景》—— 勾勒计算未来的战略罗盘

    AGI曙光”的关键路标与潜在挑战,让读者对技术发展的脉络有了全局性认知。 (图2:AGI技术演进概念路线图) 这本书并非只为工程师而写。它更适合科技政策的制定者、战略投资者以及所有对未来充满
    发表于 09-17 09:32

    《AI芯片:科技探索与AGI愿景》—— 深入硬件核心的AGI指南

    《AI芯片:科技探索与AGI愿景》一书如同一张详尽的“藏宝图”,为读者指明了通往下一代人工智能的硬件之路。作者没有停留在空洞的概念层面,而是直击核心,从冯·诺依曼架构的“内存墙”瓶颈切入,清晰阐述了
    发表于 09-17 09:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    《AI芯片:科技探索与AGI愿景》这本书是张臣雄所著,由人民邮电出版社出版,它与《AI芯片:前沿技术与创新未来》一书是姊妹篇,由此可见作者在AI芯片领域的功力和造诣。 作者毕业于上海交通大学电子
    发表于 09-05 15:10

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能推理分析能力的有机融合
    发表于 07-16 15:29

    MCSDK 6.2.1位置模式过冲的原因?如何解决?

    3.3s或则大于3.7秒,则电机会在停止时超过目标位置,再快速回调到目标位置,产生一个明显的抖动。 具有明显的分界线,3.7秒Ramp运行时间就是正常的,把Ramp运行时间调整为3.8秒,其他参数都不
    发表于 07-11 08:17

    坝基渗流压力观测:方法、规范与智能预警系统解析

    观测的核心目标是实时掌控坝体浸润线变化趋势。浸润线作为坝体渗流场的分界线,其位置变化直接反映坝体渗流稳定性。通过持续监测,可有效识别三大安全隐患:渗流侵蚀、管涌风险及坝体渗透变形。工
    的头像 发表于 04-30 14:21 1048次阅读
    坝基渗流压力观测:方法、规范与智能预警系统<b class='flag-5'>解析</b>