电子发烧友网报道(文/李弯弯)在2026年4月22日举行的谷歌云Next大会上,谷歌正式发布了第八代张量处理单元(TPU)。此次发布的产品包含两款独立的芯片:TPU 8t和TPU 8i。这是谷歌首次将训练与推理任务拆分至独立芯片,标志着其AI硬件路线的重大转向。
谷歌高级副总裁兼AI与基础设施首席技术专家Amin Vahdat表示,随着AI智能体(AI Agents)的兴起,训练与服务场景对硬件的需求已经出现明显分化。为了最大化效率,需要分别为这两类场景打造专用芯片。
这一变化反映了当前AI基础设施建设的核心趋势:从单纯的模型参数规模竞争,转向了对算力成本、能效比以及推理延迟的综合考量。
TPU 8t与8i的技术亮点
谷歌此次推出的TPU 8t与TPU 8i两款芯片,在设计目标、集群规模、内存配置及互联架构上有明显差异。TPU 8t聚焦于大规模模型训练,而TPU 8i则致力于实现高并发、低延迟的推理任务。

TPU 8t的设计核心在于构建一个无阻塞的超大规模计算集群,以应对当前日益复杂的万亿参数模型训练挑战。在集群扩展能力方面,单个超级计算单元(Supercomputer Pod)可容纳多达9600枚芯片,而通过JAX与Pathways框架,分布式训练规模更可扩展至单一集群超过100万枚TPU芯片。这种前所未有的规模,使得最复杂的模型能够调用一个统一的超大规模内存池进行计算,从而大幅减少了跨集群通信的开销,提升了训练效率。
为了解决大规模集群中的通信瓶颈,TPU 8t采用了全新的Virgo网络架构。在互联架构与带宽方面,芯片间互联(ICI)带宽是上一代的两倍,而数据中心骨干网带宽则较上一代提升了最高4倍。这种两层无阻塞网络设计,确保了即使在数万枚芯片协同工作时,数据传输也不会成为计算的限制因素,为超大规模训练提供了坚实的网络支撑。
在计算性能与可靠性方面,TPU 8t计算性能较上一代Ironwood提升了近3倍。此外,该芯片还引入了一套完善的可靠性、可用性与可维护性(RAS)设计,包括覆盖数万枚芯片的实时遥测监控,以及在不中断任务运行的情况下自动检测并绕过故障链路的机制。光路电路交换(OCS)技术的运用,更是使得硬件拓扑结构能够在无需人工干预的前提下,围绕故障点自动重构,进一步提升了系统的稳定性和可靠性。
与TPU 8t追求吞吐量不同,TPU 8i的设计核心在于解决推理过程中的“内存墙”问题和降低响应延迟,特别是针对混合专家模型(MoE)和复杂的智能体工作流。为了实现这一目标,TPU 8i在片上SRAM方面进行了大幅扩容。
推理任务通常涉及频繁的内存读写,尤其是在处理长上下文窗口时。TPU 8i配备了384MB的片上静态随机存取存储器(SRAM),容量是上一代的三倍。这意味着模型的活跃工作集(如KV Cache)可以完全保留在芯片内部运行,从而大幅减少了处理器等待数据从外部高带宽内存(HBM)传输的时间,显著降低了推理延迟。
在互联架构方面,TPU 8i放弃了传统的3D Torus互联结构,转而采用分层式的Boardfly网络拓扑。这种架构由基础单元(4枚完全互联的芯片)组成,进一步扩展为本地化组,最后通过OCS互联成集群。在这种架构下,任意两枚芯片之间的通信最多只需经过7次跳转(上一代为16跳),全对全通信延迟改善了最高50%。这对于MoE模型中频繁跨芯片路由令牌(Token)的操作至关重要,有效提升了推理效率。
此外,TPU 8i还新增了片上集合加速引擎(CAE),该引擎可以卸载全局操作,将片上集合操作的延迟降低至多5倍。这对于自回归解码和思维链处理等需要多芯片紧密协作的任务来说,无疑是一个巨大的提升,有效增强了集群的并发效率。
谷歌针对不同芯片的特性选择了不同的设计合作伙伴。TPU 8t由博通共同设计,借助博通在高性能ASIC设计领域的经验,实现了极致的计算密度和互联性能。而TPU 8i则由联发科参与设计,旨在通过联发科的工程能力打造高性价比的推理加速器。两款芯片均运行在谷歌自研的Axion ARM架构CPU平台上,并由谷歌第四代液冷技术提供散热支持,这种全栈自研与定制合作相结合的模式,有助于谷歌在保证性能的同时,控制数据中心的总体拥有成本(TCO)。
全栈生态:从芯片到智能体平台
硬件的迭代升级,本质是为软件生态的蓬勃发展提供支撑。在此次大会上,谷歌同步推出多项针对 AI 智能体的软件与平台更新,全力打通从底层算力到顶层应用的完整链路。
在 Gemini 企业代理平台领域,谷歌推出专为 AI 代理打造的一站式平台——Gemini Enterprise。该平台集模型选择、构建及代理开发功能于一身,功能强大且全面。其中的 Agent Studio 独具特色,企业可借此构建具备长期记忆、能执行多步骤流程的智能体,极大拓展了智能体的应用边界。同时,谷歌推出“知识目录”(Knowledge Catalog)和跨云湖仓(Cross - Cloud Lakehouse),打破数据壁垒。AI 智能体得以无缝访问 AWS、Azure 等外部云服务商的数据,有效解决数据孤岛问题,让 AI 能够精准回答涉及复杂业务关系的深度问题。
谷歌 Workspace 套件也迎来智能化升级。通过全新的 Workspace Intelligence 层,Gemini 能够跨 Gmail、Docs 和 Drive 深度理解上下文。基于此,智能体可自动安排会议、生成契合品牌形象的 PPT,甚至在 Gmail 中提供智能收件箱助手,全方位提升办公效率。为加速企业向谷歌 Workspace 的迁移,谷歌还推出“快速企业迁移”功能,将迁移速度提升至原来的 5 倍,降低企业迁移成本。
谷歌第八代 TPU 的发布对行业的影响,可能远不止硬件规格的迭代这么简单,它也对 AI 基础设施发展方向提供了参考价值。
在能效与成本平衡方面,面对电力供应成为数据中心主要制约因素的现状,TPU 8t 和 8i 均将能效作为核心考量指标。与上一代 Ironwood 相比,TPU 8t 每瓦性能提升 124%,TPU 8i 提升 117%。能效的显著提升,使企业能在相同电力预算下提供更多算力服务,有效控制成本。
光互联市场也迎来新机遇。TPU 8 系列对高带宽和低延迟的极致追求,有力推动光模块和光路交换机(OCS)市场增长。尤其是 TPU 8i 在推理集群中全面采用 OCS 全互联技术,预示光交换技术将从训练集群向推理集群广泛渗透,相关产业链市场空间有望进一步拓展。
写在最后
目前,亚马逊、微软和Meta等科技巨头也在积极布局自研AI芯片。谷歌通过“训练+推理”的双芯策略,结合自研CPU和液冷技术,构建了垂直整合的竞争优势。虽然英伟达在通用GPU市场仍占据主导地位,但谷歌通过定制化的ASIC路线,正在为企业级AI应用提供一种高性价比的替代方案。
总体而言,谷歌TPU 8t和8i的推出,旨在以更具成本效益的方式提供大规模吞吐量和低延迟能力,从而支撑起AI智能体时代的算力需求。这两款芯片预计将于2026年晚些时候正式面向市场推出。
-
asic
+关注
关注
34文章
1278浏览量
124940 -
谷歌
+关注
关注
27文章
6259浏览量
111961 -
TPU
+关注
关注
0文章
173浏览量
21716
发布评论请先 登录
小米自研3nm旗舰SoC、4G基带亮相!雷军回顾11年造芯路
实锤!比亚迪首次披露自研激光雷达进度,已量产上车!(将全民普及)
加快进程!Meta计划2027年底前推出四代自研AI芯片
国内首个国产AI推理千卡集群落地,采用云天励飞全自研AI推理芯片
曦望发布新一代推理GPU芯片,单位Token推理成本降低90%
微软发布AI芯片Maia 200,性能超越谷歌TPU和亚马逊Trainium
AI硬件全景解析:CPU、GPU、NPU、TPU的差异化之路,一文看懂!
谷歌云发布最强自研TPU,性能比前代提升4倍
谷歌发布第八代TPU,训练推理分离,搭载自研CPU
评论