谷歌发布第八代TPU，训练推理分离，搭载自研CPU-电子发烧友网

电子发烧友网报道（文/李弯弯）在2026年4月22日举行的谷歌云Next大会上，谷歌正式发布了第八代张量处理单元（TPU）。此次发布的产品包含两款独立的芯片：TPU 8t和TPU 8i。这是谷歌首次将训练与推理任务拆分至独立芯片，标志着其AI硬件路线的重大转向。

谷歌高级副总裁兼AI与基础设施首席技术专家Amin Vahdat表示，随着AI智能体（AI Agents）的兴起，训练与服务场景对硬件的需求已经出现明显分化。为了最大化效率，需要分别为这两类场景打造专用芯片。

这一变化反映了当前AI基础设施建设的核心趋势：从单纯的模型参数规模竞争，转向了对算力成本、能效比以及推理延迟的综合考量。

TPU 8t与8i的技术亮点

谷歌此次推出的TPU 8t与TPU 8i两款芯片，在设计目标、集群规模、内存配置及互联架构上有明显差异。TPU 8t聚焦于大规模模型训练，而TPU 8i则致力于实现高并发、低延迟的推理任务。

TPU 8t的设计核心在于构建一个无阻塞的超大规模计算集群，以应对当前日益复杂的万亿参数模型训练挑战。在集群扩展能力方面，单个超级计算单元（Supercomputer Pod）可容纳多达9600枚芯片，而通过JAX与Pathways框架，分布式训练规模更可扩展至单一集群超过100万枚TPU芯片。这种前所未有的规模，使得最复杂的模型能够调用一个统一的超大规模内存池进行计算，从而大幅减少了跨集群通信的开销，提升了训练效率。

为了解决大规模集群中的通信瓶颈，TPU 8t采用了全新的Virgo网络架构。在互联架构与带宽方面，芯片间互联（ICI）带宽是上一代的两倍，而数据中心骨干网带宽则较上一代提升了最高4倍。这种两层无阻塞网络设计，确保了即使在数万枚芯片协同工作时，数据传输也不会成为计算的限制因素，为超大规模训练提供了坚实的网络支撑。

在计算性能与可靠性方面，TPU 8t计算性能较上一代Ironwood提升了近3倍。此外，该芯片还引入了一套完善的可靠性、可用性与可维护性（RAS）设计，包括覆盖数万枚芯片的实时遥测监控，以及在不中断任务运行的情况下自动检测并绕过故障链路的机制。光路电路交换（OCS）技术的运用，更是使得硬件拓扑结构能够在无需人工干预的前提下，围绕故障点自动重构，进一步提升了系统的稳定性和可靠性。

与TPU 8t追求吞吐量不同，TPU 8i的设计核心在于解决推理过程中的“内存墙”问题和降低响应延迟，特别是针对混合专家模型（MoE）和复杂的智能体工作流。为了实现这一目标，TPU 8i在片上SRAM方面进行了大幅扩容。

推理任务通常涉及频繁的内存读写，尤其是在处理长上下文窗口时。TPU 8i配备了384MB的片上静态随机存取存储器（SRAM），容量是上一代的三倍。这意味着模型的活跃工作集（如KV Cache）可以完全保留在芯片内部运行，从而大幅减少了处理器等待数据从外部高带宽内存（HBM）传输的时间，显著降低了推理延迟。

在互联架构方面，TPU 8i放弃了传统的3D Torus互联结构，转而采用分层式的Boardfly网络拓扑。这种架构由基础单元（4枚完全互联的芯片）组成，进一步扩展为本地化组，最后通过OCS互联成集群。在这种架构下，任意两枚芯片之间的通信最多只需经过7次跳转（上一代为16跳），全对全通信延迟改善了最高50%。这对于MoE模型中频繁跨芯片路由令牌（Token）的操作至关重要，有效提升了推理效率。

此外，TPU 8i还新增了片上集合加速引擎（CAE），该引擎可以卸载全局操作，将片上集合操作的延迟降低至多5倍。这对于自回归解码和思维链处理等需要多芯片紧密协作的任务来说，无疑是一个巨大的提升，有效增强了集群的并发效率。

谷歌针对不同芯片的特性选择了不同的设计合作伙伴。TPU 8t由博通共同设计，借助博通在高性能ASIC设计领域的经验，实现了极致的计算密度和互联性能。而TPU 8i则由联发科参与设计，旨在通过联发科的工程能力打造高性价比的推理加速器。两款芯片均运行在谷歌自研的Axion ARM架构CPU平台上，并由谷歌第四代液冷技术提供散热支持，这种全栈自研与定制合作相结合的模式，有助于谷歌在保证性能的同时，控制数据中心的总体拥有成本（TCO）。

全栈生态：从芯片到智能体平台

硬件的迭代升级，本质是为软件生态的蓬勃发展提供支撑。在此次大会上，谷歌同步推出多项针对 AI 智能体的软件与平台更新，全力打通从底层算力到顶层应用的完整链路。

在 Gemini 企业代理平台领域，谷歌推出专为 AI 代理打造的一站式平台——Gemini Enterprise。该平台集模型选择、构建及代理开发功能于一身，功能强大且全面。其中的 Agent Studio 独具特色，企业可借此构建具备长期记忆、能执行多步骤流程的智能体，极大拓展了智能体的应用边界。同时，谷歌推出“知识目录”（Knowledge Catalog）和跨云湖仓（Cross - Cloud Lakehouse），打破数据壁垒。AI 智能体得以无缝访问 AWS、Azure 等外部云服务商的数据，有效解决数据孤岛问题，让 AI 能够精准回答涉及复杂业务关系的深度问题。

谷歌 Workspace 套件也迎来智能化升级。通过全新的 Workspace Intelligence 层，Gemini 能够跨 Gmail、Docs 和 Drive 深度理解上下文。基于此，智能体可自动安排会议、生成契合品牌形象的 PPT，甚至在 Gmail 中提供智能收件箱助手，全方位提升办公效率。为加速企业向谷歌 Workspace 的迁移，谷歌还推出“快速企业迁移”功能，将迁移速度提升至原来的 5 倍，降低企业迁移成本。

谷歌第八代 TPU 的发布对行业的影响，可能远不止硬件规格的迭代这么简单，它也对 AI 基础设施发展方向提供了参考价值。

在能效与成本平衡方面，面对电力供应成为数据中心主要制约因素的现状，TPU 8t 和 8i 均将能效作为核心考量指标。与上一代 Ironwood 相比，TPU 8t 每瓦性能提升 124%，TPU 8i 提升 117%。能效的显著提升，使企业能在相同电力预算下提供更多算力服务，有效控制成本。

光互联市场也迎来新机遇。TPU 8 系列对高带宽和低延迟的极致追求，有力推动光模块和光路交换机（OCS）市场增长。尤其是 TPU 8i 在推理集群中全面采用 OCS 全互联技术，预示光交换技术将从训练集群向推理集群广泛渗透，相关产业链市场空间有望进一步拓展。

写在最后

目前，亚马逊、微软和Meta等科技巨头也在积极布局自研AI芯片。谷歌通过“训练+推理”的双芯策略，结合自研CPU和液冷技术，构建了垂直整合的竞争优势。虽然英伟达在通用GPU市场仍占据主导地位，但谷歌通过定制化的ASIC路线，正在为企业级AI应用提供一种高性价比的替代方案。

总体而言，谷歌TPU 8t和8i的推出，旨在以更具成本效益的方式提供大规模吞吐量和低延迟能力，从而支撑起AI智能体时代的算力需求。这两款芯片预计将于2026年晚些时候正式面向市场推出。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

asic

asic

+关注

关注
34

文章
1278

浏览量
124940
谷歌

谷歌

+关注

关注
27

文章
6259

浏览量
111961
TPU

TPU

+关注

关注
0

文章
173

浏览量
21716

搜索历史

谷歌发布第八代TPU，训练推理分离，搭载自研CPU

评论