0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google推出第七代TPU芯片Ironwood

谷歌开发者 来源:谷歌云服务 2025-04-16 11:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

以下文章来源于谷歌云服务,作者 Google Cloud

Amin Vahdat

Google Cloud ML、系统和 Cloud AI 副总裁暨总经理

在 Google Cloud Next 25 大会上,我们隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。这不仅是我们迄今为止性能最高、扩展性最佳的定制 AI 加速器,更是第一款专为推理而设计的 TPU。

十多年来,TPU 一直为 Google 最严苛的 AI 训练与执行工作负载提供支持,并助力我们的云端客户实现相同目标。Ironwood 是我们至今最强大、功能最全面且能效最高的 TPU,专为大规模驱动思考型(thinking)、推理型(inferential)的 AI 模型而打造。

Ironwood 的问世,代表着 AI 发展及其底层基础架构演进的重大转变。从为人们提供实时信息以供解读的响应式 AI (responsive AI)模型,转向能够主动生成洞察和解读的模型。这就是我们所说的「推理时代」(age of inference),在这个时代,AI agent 将主动检索和生成数据,以协同方式提供洞察与解答,而不仅仅是提供数据。

Ironwood 的构建旨在支持生成式 AI 的下一个发展阶段及其庞大的计算和通信需求。Ironwood 可以扩展到高达 9,216 颗液冷芯片(liquid cooled chips),这些芯片通过突破性的芯片间互连 (Inter-Chip Interconnect, ICI) 网络相连。它是 Google Cloud AI Hypercomputer 架构的多项新组件之一,该架构旨在整合优化硬件与软件层面,以应对最严苛的 AI 工作负载。通过 Ironwood,开发者还能利用 Google 自家的 Pathways 软件堆栈,可靠且轻松地利用数万个 Ironwood TPU 的组合计算能力。

以下我们将深入探讨这些创新如何协同运作,以无与伦比的性能、成本和能效来处理最严苛的训练与执行工作负载。

以 Ironwood 驱动推理时代

Ironwood 的设计旨在从容应对「思考模型」的复杂计算和通信需求,这类模型涵盖了大语言模型 (LLMs)、专家混和模型 (Mixture of Experts, MoEs) 和进阶推理任务。这些模型需要大规模并行处理能力和高效的内存访问。

特别的是,Ironwood 的设计着重于在执行大量的张量运算的同时,最大限度地降低芯片上的数据移动和延迟。在前沿应用方面,思考模型的计算需求远远超出任何单一芯片的处理容量。我们为 Ironwood TPU 设计了低延迟、高带宽的 ICI 网络,以支持在整个 TPU Pod 规模下进行协调且同步的通信。

针对 Google Cloud 客户,Ironwood 根据 AI 工作负载的需求提供两种规模配置:256 颗芯片配置和 9,216 颗芯片配置。

当扩展到每个 Pod 达 9,216 颗芯片时,总运算能力可达 42.5 百亿亿次浮点运算每秒(42.5 Exaflops),是世界上最大的超级计算机 El Capitan 的24 倍以上,后者每个 Pod 仅提供 1.7 百亿亿次浮点运算每秒 (1.7 Exaflops)。Ironwood 提供的大规模并行处理能力,能够支持最严苛的 AI 工作负载,例如用于训练和推理、具备思考能力的超大型密集 LLM 或 MoE 模型。每颗独立芯片的峰值计算能力高达 4,614 万亿次浮点运算每秒(4,614 TFLOPs),代表着 AI 能力的巨大飞跃。此外,Ironwood 的内存和网络架构确保了在如此庞大的规模下,始终能够提供正确的数据可支持峰值性能。

Ironwood 还配备了增强版的 SparseCore,这是一种专门用于处理高级排名和推荐系统工作负载中常见的超大规模嵌入(embeddings)的加速器。Ironwood 对 SparseCore 的支持扩大,使其能加速更广泛的工作负载,甚至跨越传统 AI 领域,进入金融和科学等领域。

Google DeepMind 开发的机器学习运行时架构 Pathways,能在多个 TPU 芯片间实现高效的分布式计算。Google Cloud 上的 Pathways 让使用者能轻易超越单个 Ironwood Pod 的限制,将数十万颗 Ironwood 芯片组合在一起,以快速推进生成式 AI 计算的前沿发展。

196fe898-191d-11f0-9310-92fbcf53809c.png

图一:相较于 Google 首款对外提供的 Cloud TPU v2, FP8 总峰值浮点运算性能提升幅度。

1998874e-191d-11f0-9310-92fbcf53809c.png

图二:包括最新一代 Ironwood 在内的 Cloud TPU 产品 (3D 环形拓扑结构, 3D torus version) 技术规格并列比较。FP8 峰值 TFlops 在 v4 与 v5p 上为模拟值,Ironwood 则提供原生支持。

Ironwood 的主要功能

Google Cloud 是唯一一家拥有超过十年提供 AI 计算经验的超大规模云提供商,不仅支持尖端研究,更将这些技术无缝整合到全球规模等级的服务中,每天为数十亿使用者提供 Gmail、Google 搜索等服务。这些专业知识正是 Ironwood 性能的核心所在。主要功能包括:

在性能大幅提升的同时也注重能效,使 AI 工作负载能够以更符合成本效益的方式运行。Ironwood 的性能功耗比是 2024 年推出的第 6 代 TPU Trillium 的 2 倍。在当前可用电力成为 AI 发展限制因素之一的时代,我们为客户的工作负载提供了每瓦更多的计算能力。我们先进的液冷解决方案和优化的芯片设计,即使面对持续繁重的 AI 工作负载,也能可靠地维持高达标准风冷两倍的性能。事实上,Ironwood 的能效较我们 2018 年推出的首款 Cloud TPU 提升近 30 倍。

大幅增加高带宽内存 (HBM) 容量。Ironwood 每颗芯片提供 192 GB 容量,是 Trillium 的 6 倍,能处理更大的模型和数据集计算,减少频繁的数据传输需求,进而提升整体性能。

HBM 带宽大幅提升,单颗芯片可达 7.2 Tbps,是 Trillium 的 4.5 倍。这种高带宽能确保数据快速访问,这对于现代 AI 中常见的内存密集型工作负载至关重要。

增强芯片间互连 (ICI) 带宽。双向传输已提高到 1.2 Tbps,是 Trillium 的 1.5 倍,能加速芯片间的通信,有助于提升大规模分布式训练和推理的效率。

19c70ed4-191d-11f0-9310-92fbcf53809c.png

图三:相较于最早的 Cloud TPU v2,Google TPU 的能效有显著提升。此数据是以每颗芯片封装在热设计功耗(TDP)下所能达到的 FP8 峰值运算性能(flops per watt)进行衡量。

Ironwood 满足了未来 AI 的需求

Ironwood 凭借其全面提升的计算能力、内存容量、芯片互连技术进展与可靠性,代表推理时代的一项独特关键突破。这些突破,加上近 2 倍的能效提升,意味着我们需求最高的客户能以最高的性能与最低的延迟来处理训练与推理执行工作负载,同时满足暴增的计算需求。

当前尖端 AI 模型如 Gemini 2.5 和荣获诺贝尔奖的 AlphaFold, 如今都在 TPU 上运行。我们迫不及待地想看到我们自己的开发人员和 Google Cloud 客户在 Ironwood 今年晚些时候推出后,会激发出哪些 AI 领域的突破。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60272
  • 加速器
    +关注

    关注

    2

    文章

    836

    浏览量

    39715
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296796
  • TPU
    TPU
    +关注

    关注

    0

    文章

    164

    浏览量

    21539

原文标题:Ironwood:首款适用于 AI 推理时代的 Google TPU

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直击英伟达腹地?谷歌TPU v7开放部署,催生OCS产业链红利

    Processing Unit, TPU)构建了一套完整的AI算力基础设施体系。   11月,谷歌宣布第七代 TPU v7(代号 Ironwood)将在后续几周大规模上市。与此消息同
    的头像 发表于 11-27 08:53 8417次阅读
    直击英伟达腹地?谷歌<b class='flag-5'>TPU</b> v7开放部署,催生OCS产业链红利

    谷歌云发布最强自研TPU,性能比前代提升4倍

    电子发烧友网报道(文/李弯弯)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(张量处理器)“Ironwood”,该芯片预计在未来
    的头像 发表于 11-13 07:49 8137次阅读
    谷歌云发布最强自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    小马智行第七代自动驾驶车辆上线运营

    小马智行第七代Robotaxi,今起上线运营!11月起,第七代极狐阿尔法T5及埃安霸王龙Robotaxi将正式在广州、深圳等地投入运营,用户只需打开“小马智行”同名App或小程序,点击“呼叫小马”,就能体验到功能和体验全新升级的第七代
    的头像 发表于 11-07 11:35 1222次阅读

    小马智行全球首次公开L4 Robotaxi夏季高温测试

    小马智行第七代Robotaxi是L4行业走向量产、车规级标准的代表车型,夏测、冬测作为“试金石”,是汽车研发中不可或缺的环节。
    的头像 发表于 09-02 09:31 532次阅读

    小马智行第七代自动驾驶车辆三城开跑

    近日,小马智行宣布第七代极狐阿尔法T5自动驾驶车辆在北京开启自动驾驶公开道路测试,半个月前该车型已率先在深圳获批开展路测。
    的头像 发表于 07-26 16:04 1002次阅读

    北汽极狐阿尔法T5 Robotaxi量产下线

    近日,极狐 阿尔法T5 Robotaxi正式量产下线,并已全面启动在深圳的落地运营推进工作。这款搭载小马智行第七代自动驾驶系统的车型即将来到千万人身边,这标志着4级高度自动驾驶技术正式走向普及,加速融入大众生活。
    的头像 发表于 07-21 10:49 868次阅读

    小马智行第七代自动驾驶Robotaxi开启道路测试

    近日,小马智行宣布搭载其第七代自动驾驶系统的北汽极狐阿尔法T5 Robotaxi在深圳开启道路测试。继广汽埃安霸王龙Robotaxi获得广州和深圳的智能网联汽车道路测试牌照后,小马智行第七代
    的头像 发表于 07-16 17:17 784次阅读

    英伟达认证推迟,但三星HBM3E有了新进展

    明年。目前博通凭借自有半导体设计能力,正为谷歌代工第七代TPU"Ironwood"及Meta自研AI芯片"MTIA v3"。   此外,三星电子也积极推进向亚马逊云服务(AWS)供应H
    的头像 发表于 07-12 00:16 3363次阅读

    飞虹IGBT单管FHA75T65V1DL产品介绍

    国产IGBT单管新品,采用飞虹半导体第七代场截止(Trench Field Stop VII )技术工艺设计,能达到显著降低导通损耗和开关损耗。使产品具有极低的VCE(sat)和极短的拖尾电流,为终端设计师在优化系统效率时提供有力的帮助。
    的头像 发表于 07-08 16:09 2369次阅读
    飞虹IGBT单管FHA75T65V1DL产品介绍

    小马智行亮相2025香港车博会

    6月12日-15日,2025国际汽车及供应链博览会(下称“香港车博会”)在香港亚洲国际博览馆举办。小马智行携第七代无人驾驶Robotaxi 丰田铂智4X 强势亮相,展示了最新的自动驾驶软硬件系统和技术亮点。这也是小马智行第七代Robotaxi车型在首次在香港亮相。
    的头像 发表于 06-13 16:41 828次阅读

    小马智行第七代自动驾驶车辆广深开跑

    近日,搭载小马智行第七代自动驾驶系统的广汽埃安霸王龙自动驾驶车辆,正式获得智能网联汽车道路测试牌照,在广州和深圳开启公开道路测试。这意味着小马智行第七代自动驾驶车辆在完成实验室与封闭场地的验证后
    的头像 发表于 06-11 10:54 1511次阅读

    小马智行第七代Robotaxi车型搭载禾赛AT128激光雷达

    近日,全球 L4 级自动驾驶领军企业小马智行于 2025 上海车展举办“向新而行”新闻发布会。全球首发第七代车规级自动驾驶软硬件系统方案,三款第七代 Robotaxi 家族量产车型,均搭载 4 颗禾
    的头像 发表于 04-27 16:18 798次阅读

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命 Google 发布了 Ironwood,这是其
    的头像 发表于 04-12 11:10 2924次阅读
    谷歌<b class='flag-5'>第七代</b><b class='flag-5'>TPU</b> <b class='flag-5'>Ironwood</b>深度解读:AI推理时代的硬件革命

    谷歌新一 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    电子发烧友网报道(文 / 李弯弯)日前,谷歌在 Cloud Next 大会上,隆重推出了最新一 TPU AI 加速芯片 ——Ironwood
    的头像 发表于 04-12 00:57 3228次阅读

    新大陆扫码器测评:1秒识别破损码,一维二维条码也能高效识别

    破损码、一维/二维条码的高效表现。一、核心性能:第七代解码技术突破极限新大陆扫码器搭载自主研发的第七代核心解码技术,采用百万像素高分辨率传感器,可快速识读低对比度
    的头像 发表于 04-11 10:11 863次阅读
    新大陆扫码器测评:1秒识别破损码,一维二维条码也能高效识别