谷歌云发布最强自研TPU，性能比前代提升4倍-电子发烧友网

电子发烧友网报道（文/李弯弯）近日，谷歌云在官方博客上正式宣布，公司成功推出第七代TPU（张量处理器）“Ironwood”，该芯片预计在未来几周内正式上市。

“Ironwood”由谷歌自主精心设计，能够轻松处理从大型模型训练到实时聊天机器人运行以及AI智能体操作等各类复杂任务。

谷歌在新闻稿中着重强调，“Ironwood”是专为应对最严苛的工作负载而打造的。无论是大规模模型训练、复杂的强化学习（RL），还是高容量、低延迟的AI推理和模型服务，它都能游刃有余。与TPU v5p相比，“Ironwood”的峰值性能大幅提升，达到10倍之多；和TPU v6e（Trillium）相比，其单芯片在训练和推理工作负载下的性能均提升4倍以上，成为谷歌迄今为止性能最强大、能效最高的定制芯片。

不仅如此，新一代“Ironwood” TPU在集群连接能力上也有着惊人表现。它可在单个集群中连接多达9216颗芯片，有效消除“最复杂模型中的数据瓶颈”，让客户能够毫无压力地运行并扩展当前世界上最大、数据量最密集的模型。

图：包含9,216颗Ironwood的TPU集群（来源：谷歌云）

张量处理单元（TPU）是谷歌公司专为加速机器学习和深度学习任务而设计的专用集成电路芯片（ASIC）。其研发项目始于2013年，旨在解决数据中心机器学习工作负载的加速需求。2016年5月，在Google I/O开发者大会上，TPU首次公开亮相，并应用于AlphaGo人工智能围棋系统，这一事件标志着TPU正式进入大众视野。

TPU的名称源于谷歌TensorFlow开源深度学习框架，它采用脉动阵列架构和低精度计算技术，在矩阵运算任务中展现出卓越性能，推理速度比传统GPU和CPU高15至30倍，能效比提升30至80倍。

2024年5月，谷歌发布了第六代TPU（Trillium）。这款芯片采用3D堆叠封装技术和液冷系统，在性能和能效方面都有显著提升。其峰值计算性能较TPUv5e提升4.7倍，能效比比TPUv5e高67%，内存容量增至32GB，芯片互联速度达3200 Gbps，支持256芯片集群部署，单个Pod算力达925.9 teraflops，并于2024年12月通过Google Cloud向客户提供商用服务。

此外，谷歌还宣布启动Project Suncatcher计划，将Trillium TPU部署于卫星群构建太空机器学习计算系统，计划2027年发射原型卫星，并计划2026年部署并提供超过1吉瓦算力。

谷歌在TPU领域的发展不仅体现在技术迭代上，还收获了重要订单。当地时间10月23日，AI初创公司Anthropic宣布与谷歌达成合作，将部署多达100万个谷歌的TPU芯片，用于训练旗下AI大模型Claude。此次扩展计划价值数百亿美元，预计算力容量将于2026年达到1GW（千兆瓦）级别。

对于此次合作，谷歌云首席执行官Thomas Kurian表示，Anthropic选择大幅扩展TPU的使用，是对TPU性价比和效率多年认可的体现。Anthropic的首席财务官Krishna Rao也表示，此次合作不仅加强了谷歌与Anthropic的伙伴关系，也证明了自研芯片TPU的泛用性。

自2018年起，谷歌开始通过谷歌云出售TPU算力，目前公开大客户包括Salesforce、Safe Superintelligence、Midjourney和Anthropic等。

尽管谷歌TPU发展势头迅猛，但在当前AI芯片领域，英伟达的GPU依然占据主导地位。谷歌计算和人工智能基础设施副总裁兼总经理Mark Lohmeyer曾透露，TPU研发初衷是为了缓解算力压力，减少对外部芯片的采购量。研究机构Gartner的分析师Gaurav Gupta也指出，尽管谷歌拥有自研芯片，但由于需要为客户保持灵活性，其仍是英伟达最大的客户之一。和TPU相比，GPU能够处理更广泛的工作负载，可以更好地适应客户算法或模型的变化。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉