直击英伟达腹地？谷歌TPU v7开放部署，催生OCS产业链红利-电子发烧友网

电子发烧友网报道（文/莫婷婷）在AI技术飞速发展的今天，算力已成为决定企业竞争格局的核心要素。作为全球科技巨头，谷歌不仅在AI 算法和大模型领域持续引领创新，更通过自主研发的张量处理单元（Tensor Processing Unit, TPU）构建了一套完整的AI算力基础设施体系。

11月，谷歌宣布第七代 TPU v7（代号 Ironwood）将在后续几周大规模上市。与此消息同步出来的还有：允许客户在自有数据中心部署Ironwood。该消息一出，被认为是谷歌向英伟达发起挑战的信号，一度拉升其股价，截至24日收盘价318.47美元，该股今年以来累计上涨87.79%，大幅超过英伟达同期35.94%的涨幅。

TPU芯片可部署在客户数据中心，英伟达紧急回应

TPU芯片是谷歌于2015年首次推出的专用集成电路（ASIC），围绕张量计算展开，可以说是专为AI而生，用于谷歌的模型训练和云端部署。

不同于通用GPU依赖高度可编程的微内核结构，TPU在芯片中堆叠大规模矩阵运算单元和高速内存，将芯片资源高度集中于深度学习中最常见的运算——如卷积、矩阵乘法和激活函数，从而实现极致的能效比。

数据显示，2015年谷歌发布TPU V1，带有8位低精度乘法的硬件单元。10年后，TPU芯片已经进化至第七代，在能效、内存等各个方面都迎来升级。

在2025 年 Hot Chips 2025 大会上，谷歌公开TPU v7 Ironwood的细节。Ironwood单芯片算力达4614 TFLOPS（FP8精度），集群规模达到9216颗芯片，较2022年推出的TPU V4翻倍（集群规模为4096颗芯片）。显存容量高达192GB HBM3e，带宽约为7.4 TB/s。通过Google Jupiter 数据中心网络，整个系统可以连接高达数十万个TPU。

在能效方面，谷歌宣称其最新TPU相较前代Trilium在每瓦性能提升两倍，这使其在大规模推理场景中具备显著的成本优势。

在当前AI芯片市场中，英伟达凭借其CUDA生态和GPU平台长期占据主导地位。业内常将TPU v7 Ironwood与英伟达B200作比较，在部分关键参数上，TPU v7已具备与英伟达Blackwell架构B200 GPU匹敌甚至略胜一筹的性能水平，能够在特定场景下展现出强大的竞争力。

例如，B200 GPU提供192GB HBM3e（2x96GB），带宽为8 TB/s，单芯片算力为4500 TFlops（FP8精度）。在互联架构方面，英伟达和谷歌已经构建了各自的“护城河”：GB200 NVL72系统通过NVLink可以连接36个Grace CPU和72个Blackwell GPU。但Ironwood在谷歌ICI（芯片间互联）技术下，可以实现在单Pod内能以9.6 Tb/s的带宽连接数千颗芯片，高拓展性让大模型能快速实现迭代。

英伟达似乎也感受到谷歌带来的竞争压力，在社交平台X上发文回应称：“我们对谷歌的成功感到高兴——他们在人工智能方面取得了巨大进展，而我们也将继续向谷歌供货。”同时强调：“英伟达领先行业整整一代，是唯一一个能运行所有AI模型、并在所有计算场景中部署的平台。”并指出，英伟达提供的性能、通用性性和可替代性更强的芯片，ASIC是为特定AI框架或功能设计的芯片。

可以看出，GPU和TPU是通用和专精之间的选择：GPU面向通用计算，TPU可面向专用优化范式。未来随着TPU专用芯片的发展，TPU与GPU之间的竞争是否会日益白热化，值得关注。

目前来看，业内已有多家巨头转向ASIC，例如马斯克宣布组建团队并在数据中心部署自研AI芯片。除了性能与能效优势外，更在于极具诱惑力的价格。

公开资料显示，相较于OpenAI所依赖的英伟达H100、A100等高端GPU，谷歌自研的TPU在实现相近算力水平的同时，成本仅为其五分之一。这意味着，在动辄部署数万颗芯片的大模型训练和推理场景中，采用TPU显示出强大的竞争力。浙商研究所预测，到2028年AI ASIC的市场规模约占AI芯片的19%。

从自用到外供：拿下100万定制大单，谷歌TPU商业化飞轮已启动
需要指出的是，最终谷歌的TPU芯片能够“拦截”下多少英伟达的市场份额，还得看其应用潜力。目前，谷歌TPU芯片未来市场能有多大，商用情况如何，能够带动哪些产业链的发展呢？

中泰证券等券商预测，2026年谷歌TPU芯片的出货量将远超其他ASIC芯片厂商，有望突破400万颗。这一趋势的背后，是谷歌自身AI业务扩张以及外部客户订单激增的双重驱动。

在客户情况方面，其中最具标志性的事件是近期谷歌与AI公司Anthropic签署了一份价值数百亿美元的协议，Anthropic将采购100万个定制TPU芯片，用于大模型的训练与推理。这笔订单标志着TPU正式进入商业级AI服务市场。

在TPU芯片外供之前，谷歌早已将其深度融入核心业务体系中。11月19日，谷歌发布了全新的推理模型Gemini 3。谷歌DeepMind研究团队将其称为“全球最先进的多模态理解模型、谷歌最强大的Agent编程和氛围编程模型”，该模型融合了文本、图像、音频等多种模态，具备推理、Agent等多种能力，是谷歌继PaLM之后又一里程碑式成果。
Gemini 3大模型正是基于Ironwood集群完成训练，支持100万个token的上下文窗口，基准测试中，Gemini 3 Pro获得1501 Elo分，成为LMArena大模型竞技场排名第一的大模型，成为当前全球综合能力最强的公开大模型。另一个具备说服力的是：Gemini 3 Pro已经支撑起谷歌的AI模式、Gemini App、NotebookLM等全部产品。

就在Gemini 3发布两天后，11月21日，谷歌正式发布了Gemini 3 Pro的新一代图像生成和编辑模型Gemini 3 Pro Image（即Nano Banana Pro），具备增强推理能力与知识库。

至此，谷歌不仅证明了TPU在超大规模模型训练中的工程可行性与性能优越性，更通过Gemini 3系列产品的成功落地，为TPU芯片的商业化铺平了道路——技术自证、业务闭环，形成强大飞轮效应。

“电算+光连”引爆AI基建革命，TPU将催生OCS红利
Gemini 3 Pro大模型之所以能成为“全球最先进的多模态理解模型”，其底层算力支撑正是第七代TPU芯片Ironwood。而Ironwood的性能突破不仅源于芯片本身的高算力，更关键在于其系统级架构创新——光电路交换机（OCS）。

Ironwood集群通过48台光电路交换机（OCS）互联，采用3D Torus拓扑结构，形成9216个TPU芯片组网，每个机柜单元包含96根光纤链路，实现高达9.6 Tb/s的芯片间互连带宽。

这种基于OCS的光交换网络不仅显著降低延迟与功耗，还支持零宕机扩展，为大规模的AI集群提供稳定高效的通信底座。尽管TPU芯片内部仍为传统CMOS电信号计算，但芯片间、机柜间的高速互联已转向光通信，包括第六代TPU芯片Trillium。再往前，其实谷歌在TPUv4（2022年）起，就在万卡集群中部署了OCS技术。

随着谷歌 OCS 光路交换网络技术的成熟，其正加速构建起一个“电算+光连”的新一代AI基础设施。

来自SemiAnalysis的数据显示，谷歌定制化的OCS光路交换网络可将整体网络吞吐量提升30%，功耗降低40%，数据流完成时间缩短10%，网络宕机时间更是大幅减少达50倍。尤为关键的是，OCS架构具备出色的可扩展性和长期经济性，能帮助谷歌降低约30%的资本开支，为超大规模AI集群提供了高带宽、低延迟、高可靠且更具成本效益的互联底座。

这一趋势正强力拉动光模块产业链需求。市场调研公司Lightcounting预测，2024到2029年OCS市场将以28%的复合增速扩张。目前，中际旭创已经是谷歌光模块核心供应商，海外子公司TeraHop布局硅光OCS，预计将送样谷歌。除此之外，腾景科技通过 Coherent 间接向谷歌供应 OCS 光学模组，光库科技通过收购捷普切入OCS整机代工业务。预计光模块产业链上的企业能受益于TPU集群规模化部署，迎来新的成长机会。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6244

浏览量
110229
TPU

TPU

+关注

关注
0

文章
164

浏览量
21530

搜索历史

直击英伟达腹地？谷歌TPU v7开放部署，催生OCS产业链红利

评论