0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发布第八代TPU,训练推理分离,搭载自研CPU

Carol Li 来源:电子发烧友网 作者:李弯弯 2026-04-24 09:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)在2026年4月22日举行的谷歌云Next大会上,谷歌正式发布了第八代张量处理单元(TPU)。此次发布的产品包含两款独立的芯片:TPU 8t和TPU 8i。这是谷歌首次将训练与推理任务拆分至独立芯片,标志着其AI硬件路线的重大转向。

谷歌高级副总裁兼AI与基础设施首席技术专家Amin Vahdat表示,随着AI智能体(AI Agents)的兴起,训练与服务场景对硬件的需求已经出现明显分化。为了最大化效率,需要分别为这两类场景打造专用芯片。

这一变化反映了当前AI基础设施建设的核心趋势:从单纯的模型参数规模竞争,转向了对算力成本、能效比以及推理延迟的综合考量。

TPU 8t与8i的技术亮点

谷歌此次推出的TPU 8t与TPU 8i两款芯片,在设计目标、集群规模、内存配置及互联架构上有明显差异。TPU 8t聚焦于大规模模型训练,而TPU 8i则致力于实现高并发、低延迟的推理任务。


TPU 8t的设计核心在于构建一个无阻塞的超大规模计算集群,以应对当前日益复杂的万亿参数模型训练挑战。在集群扩展能力方面,单个超级计算单元(Supercomputer Pod)可容纳多达9600枚芯片,而通过JAX与Pathways框架,分布式训练规模更可扩展至单一集群超过100万枚TPU芯片。这种前所未有的规模,使得最复杂的模型能够调用一个统一的超大规模内存池进行计算,从而大幅减少了跨集群通信的开销,提升了训练效率。

为了解决大规模集群中的通信瓶颈,TPU 8t采用了全新的Virgo网络架构。在互联架构与带宽方面,芯片间互联(ICI)带宽是上一代的两倍,而数据中心骨干网带宽则较上一代提升了最高4倍。这种两层无阻塞网络设计,确保了即使在数万枚芯片协同工作时,数据传输也不会成为计算的限制因素,为超大规模训练提供了坚实的网络支撑。

在计算性能与可靠性方面,TPU 8t计算性能较上一代Ironwood提升了近3倍。此外,该芯片还引入了一套完善的可靠性、可用性与可维护性(RAS)设计,包括覆盖数万枚芯片的实时遥测监控,以及在不中断任务运行的情况下自动检测并绕过故障链路的机制。光路电路交换(OCS)技术的运用,更是使得硬件拓扑结构能够在无需人工干预的前提下,围绕故障点自动重构,进一步提升了系统的稳定性和可靠性。

与TPU 8t追求吞吐量不同,TPU 8i的设计核心在于解决推理过程中的“内存墙”问题和降低响应延迟,特别是针对混合专家模型(MoE)和复杂的智能体工作流。为了实现这一目标,TPU 8i在片上SRAM方面进行了大幅扩容。

推理任务通常涉及频繁的内存读写,尤其是在处理长上下文窗口时。TPU 8i配备了384MB的片上静态随机存取存储器(SRAM),容量是上一代的三倍。这意味着模型的活跃工作集(如KV Cache)可以完全保留在芯片内部运行,从而大幅减少了处理器等待数据从外部高带宽内存(HBM)传输的时间,显著降低了推理延迟。

在互联架构方面,TPU 8i放弃了传统的3D Torus互联结构,转而采用分层式的Boardfly网络拓扑。这种架构由基础单元(4枚完全互联的芯片)组成,进一步扩展为本地化组,最后通过OCS互联成集群。在这种架构下,任意两枚芯片之间的通信最多只需经过7次跳转(上一代为16跳),全对全通信延迟改善了最高50%。这对于MoE模型中频繁跨芯片路由令牌(Token)的操作至关重要,有效提升了推理效率。

此外,TPU 8i还新增了片上集合加速引擎(CAE),该引擎可以卸载全局操作,将片上集合操作的延迟降低至多5倍。这对于自回归解码和思维链处理等需要多芯片紧密协作的任务来说,无疑是一个巨大的提升,有效增强了集群的并发效率。

谷歌针对不同芯片的特性选择了不同的设计合作伙伴。TPU 8t由博通共同设计,借助博通在高性能ASIC设计领域的经验,实现了极致的计算密度和互联性能。而TPU 8i则由联发科参与设计,旨在通过联发科的工程能力打造高性价比的推理加速器。两款芯片均运行在谷歌自研的Axion ARM架构CPU平台上,并由谷歌第四代液冷技术提供散热支持,这种全栈自研与定制合作相结合的模式,有助于谷歌在保证性能的同时,控制数据中心的总体拥有成本(TCO)。

全栈生态:从芯片到智能体平台

硬件的迭代升级,本质是为软件生态的蓬勃发展提供支撑。在此次大会上,谷歌同步推出多项针对 AI 智能体的软件与平台更新,全力打通从底层算力到顶层应用的完整链路。

在 Gemini 企业代理平台领域,谷歌推出专为 AI 代理打造的一站式平台——Gemini Enterprise。该平台集模型选择、构建及代理开发功能于一身,功能强大且全面。其中的 Agent Studio 独具特色,企业可借此构建具备长期记忆、能执行多步骤流程的智能体,极大拓展了智能体的应用边界。同时,谷歌推出“知识目录”(Knowledge Catalog)和跨云湖仓(Cross - Cloud Lakehouse),打破数据壁垒。AI 智能体得以无缝访问 AWS、Azure 等外部云服务商的数据,有效解决数据孤岛问题,让 AI 能够精准回答涉及复杂业务关系的深度问题。

谷歌 Workspace 套件也迎来智能化升级。通过全新的 Workspace Intelligence 层,Gemini 能够跨 Gmail、Docs 和 Drive 深度理解上下文。基于此,智能体可自动安排会议、生成契合品牌形象的 PPT,甚至在 Gmail 中提供智能收件箱助手,全方位提升办公效率。为加速企业向谷歌 Workspace 的迁移,谷歌还推出“快速企业迁移”功能,将迁移速度提升至原来的 5 倍,降低企业迁移成本。

谷歌第八代 TPU 的发布对行业的影响,可能远不止硬件规格的迭代这么简单,它也对 AI 基础设施发展方向提供了参考价值。

在能效与成本平衡方面,面对电力供应成为数据中心主要制约因素的现状,TPU 8t 和 8i 均将能效作为核心考量指标。与上一代 Ironwood 相比,TPU 8t 每瓦性能提升 124%,TPU 8i 提升 117%。能效的显著提升,使企业能在相同电力预算下提供更多算力服务,有效控制成本。

光互联市场也迎来新机遇。TPU 8 系列对高带宽和低延迟的极致追求,有力推动光模块和光路交换机(OCS)市场增长。尤其是 TPU 8i 在推理集群中全面采用 OCS 全互联技术,预示光交换技术将从训练集群向推理集群广泛渗透,相关产业链市场空间有望进一步拓展。

写在最后

目前,亚马逊、微软和Meta等科技巨头也在积极布局自研AI芯片。谷歌通过“训练+推理”的双芯策略,结合自研CPU和液冷技术,构建了垂直整合的竞争优势。虽然英伟达在通用GPU市场仍占据主导地位,但谷歌通过定制化的ASIC路线,正在为企业级AI应用提供一种高性价比的替代方案。

总体而言,谷歌TPU 8t和8i的推出,旨在以更具成本效益的方式提供大规模吞吐量和低延迟能力,从而支撑起AI智能体时代的算力需求。这两款芯片预计将于2026年晚些时候正式面向市场推出。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • asic
    +关注

    关注

    34

    文章

    1278

    浏览量

    124940
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111961
  • TPU
    TPU
    +关注

    关注

    0

    文章

    173

    浏览量

    21716
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小米3nm旗舰SoC、4G基带亮相!雷军回顾11年造芯路

    XRING O1旗舰芯片。除了大芯片之外,还有此前未有曝光的,搭载小米4G基带的玄戒T1手表芯片,以及小米首款豪华高性能SUV小米YU7。下面我们来回顾一下发布会上的亮点,以及小米
    的头像 发表于 05-23 09:07 7777次阅读
    小米<b class='flag-5'>自</b><b class='flag-5'>研</b>3nm旗舰SoC、4G基带亮相!雷军回顾11年造芯路

    谷歌推出TPU 8t / 8i,分别面向训练推理

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2026年04月23日 13:40:46

    谷歌将新一TPU,专用于推理

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2026年04月21日 11:19:52

    实锤!比亚迪首次披露激光雷达进度,已量产上车!(将全民普及)

    ,比亚迪发布2025年度报告,尤其让我们关注的是,在年度【研发投入】中,比亚迪披露了“第二刀片电池及闪充技术”等26个年度重大研发项目,其中就包括“激光雷达”项目——这是比亚迪首次曝光
    的头像 发表于 04-01 20:07 3004次阅读
    实锤!比亚迪首次披露<b class='flag-5'>自</b><b class='flag-5'>研</b>激光雷达进度,已量产上车!(将全民普及)

    加快进程!Meta计划2027年底前推出四AI芯片

    用于支持公司内部的AI训练推理任务。   AI 芯片的推进进程   目前,MTIA 300已进入量产阶段,主要应用于内容排序和推荐系统的模型
    的头像 发表于 03-16 08:57 1.2w次阅读

    国内首个国产AI推理千卡集群落地,采用云天励飞全AI推理芯片

    3 月 12 日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞的国产AI推理加速卡,建设国产AI推理千卡集群。 该集群将
    发表于 03-12 11:10 1319次阅读

    曦望发布新一推理GPU芯片,单位Token推理成本降低90%

    电子发烧友网报道 1月27日,国产GPU厂商曦望(Sunrise)重磅发布新一推理GPU芯片——启望S3。这是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。2025年,曦望芯片交付量
    的头像 发表于 01-28 17:38 9530次阅读

    微软发布AI芯片Maia 200,性能超越谷歌TPU和亚马逊Trainium

    电子发烧友网综合报道 美东时间1月26日,微软重磅发布第二人工智能芯片Maia 200,这一举措成为微软减少对英伟达芯片依赖、高效驱动自身服务的关键一步,也标志着其在
    的头像 发表于 01-27 16:46 7485次阅读
    微软<b class='flag-5'>发布</b>AI芯片Maia 200,性能超越<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b>和亚马逊Trainium

    AI硬件全景解析:CPU、GPU、NPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行算力,成为AI训练与图形处理的“主力”;TPU在Google生态中深耕云端大模型训练;NPU则让AI从“云端”走向“身边”
    的头像 发表于 12-17 17:13 2225次阅读
    AI硬件全景解析:<b class='flag-5'>CPU</b>、GPU、NPU、<b class='flag-5'>TPU</b>的差异化之路,一文看懂!​

    英伟达遇最强对手,谷歌加速推广TPU

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2025年11月26日 13:54:07

    谷歌发布最强TPU,性能比前代提升4倍

    电子发烧友网报道(文/李弯弯)近日,谷歌云在官方博客上正式宣布,公司成功推出第七TPU(张量处理器)“Ironwood”,该芯片预计在未来几周内正式上市。   “Ironwood”由谷歌
    的头像 发表于 11-13 07:49 8952次阅读
    <b class='flag-5'>谷歌</b>云<b class='flag-5'>发布</b>最强<b class='flag-5'>自</b><b class='flag-5'>研</b><b class='flag-5'>TPU</b>,性能比前代提升4倍

    安波福推出第八雷达系列

    致力于更安全、更绿色、更互联未来的全球科技公司安波福(纽约证券交易所代码:APTV)今日宣布,正式推出其目前为止最先进的第八雷达系列。该技术专为满足未来高级驾驶辅助系统(ADAS)的发展需求而设
    的头像 发表于 10-22 11:49 727次阅读

    德赛西威荣获第八届广东省政府质量奖

    近日,《广东省人民政府关于表彰第八届广东省政府质量奖获奖组织的通报》发布,德赛西威荣获“第八届广东省政府质量奖”。
    的头像 发表于 09-29 13:56 844次阅读

    东风风神L8搭载马赫动力电池

    近日,东风新旗舰东风风神L8正式开启预售,聚焦家庭用车核心需求,该车搭载东风“马赫动力电池”打造主流家庭的“质价比之王”。
    的头像 发表于 08-15 09:55 1754次阅读

    高端芯片,服务器芯片传来好消息!

    的研发又有了一些动向,例如海光信息、龙芯中科等都在加强这一力度。   海光 C86-5G   海光CPU从初基于AMD Zen架构开发,再到
    的头像 发表于 05-18 09:25 8526次阅读
    高端芯片<b class='flag-5'>自</b><b class='flag-5'>研</b>,服务器芯片传来好消息!