谷歌新一代 TPU 芯片 Ironwood：助力大规模思考与推理的 AI 模型新引擎-电子发烧友网

电子发烧友网报道（文 / 李弯弯）日前，谷歌在 Cloud Next 大会上，隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。据悉，该芯片预计于今年晚些时候面向 Google Cloud 客户开放，将提供 256 芯片集群以及 9,216 芯片集群两种配置选项。

在核心亮点层面，Ironwood 堪称谷歌首款专门为 AI 推理精心设计的 TPU 芯片，能够有力支持大规模思考与推理 AI 模型。谷歌方面表示，它代表着 AI 发展从 “响应式” 向 “主动式” 的范式转变，未来 AI 代理将能够主动检索并生成数据，进而提供深度见解，而非仅仅输出原始数据。

在性能与能效表现上，Ironwood 取得了重大突破。其每瓦性能达到上一代 TPU Trillium 的两倍，能效近乎首款云 TPU 的 30 倍。单芯片配备 192GB 高带宽内存（HBM），容量为 Trillium 的 6 倍；HBM 带宽高达 7.2TB/s，是 Trillium 的 4.5 倍。芯片间互连（ICI）带宽提升至 1.2TB/s，为 Trillium 的 1.5 倍，这一提升有力地支持了大规模分布式训练与推理任务。

此外，Ironwood 还是谷歌首款支持 FP8 浮点格式的 TPU 芯片。在此之前，TPU 仅支持 INT8（用于推理）和 BF16（用于训练）。采用 FP8 计算可使 AI 训练吞吐量翻倍，性能相较于 BF16 提升 10 倍。

Ironwood 还配备了增强版 SparseCore 专用加速器，可用于处理高级排名和推荐任务中常见的超大嵌入。凭借这一增强版 SparseCore，其能够加速更多领域的任务，应用范围从传统的 AI 任务拓展至金融和科学等领域。

在系统架构与扩展性方面，Ironwood 可扩展至 9216 个液冷芯片，借助突破性的 ICI 网络进行连接，功率接近 10 兆瓦。它提供 256 芯片和 9216 芯片两种 Pod 配置，其中 9216 芯片的 Pod 配置整体 AI 算力可达 42.5 Exaflops。谷歌先进的液冷解决方案能够确保芯片在持续繁重的 AI 工作负载下依然保持高性能。

谷歌的 TPU 作为专为机器学习设计的定制化加速芯片，自 2015 年首次亮相以来，已成为 AI 硬件领域的重要力量。TPU 主要应用于训练和推理大规模 AI 模型（如 AlphaGo、PaLM、Gemini 等），并深度融入 Google Cloud 以及谷歌内部 AI 服务之中。

截至目前，TPU 已历经多次版本迭代：TPU v1 支持 INT8 精度，主要用于谷歌内部项目（如 AlphaGo、RankBrain）；TPU v2/v3 面向训练与推理场景，支持浮点运算，v3 进一步增加了内存和互连带宽；TPU v4 的算力达到 TPU v3 的 2.7 倍，采用液冷技术，支持 4096 芯片互联的 Pod 集群，适用于超大规模模型（如 PaLM）。

由此可见，谷歌 TPU 凭借其专用化设计、高能效比以及与 TensorFlow 的深度集成等优势，成为大规模 AI 模型训练与推理的核心硬件支撑。如今，Ironwood 的推出不仅将进一步巩固谷歌在 AI 硬件领域的领先地位，也势必为生成式 AI 的下一阶段发展提供强大的计算动力。