拥有26000个GPU的“A3”超级计算机，能为谷歌赢下AI反攻战吗？-电子发烧友网

云提供商正在组建 GPU 大军，以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中，谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后，谷歌加速了其 AI 开发。

在前段时间举办的谷歌年度I/O 开发者大会上，谷歌宣布了一款 AI 超级计算机“A3 ”，这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。

*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。

谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的，可提供26 exaFlops的AI性能。

A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例，它可以让GPU和GPU之间的数据绕过CPU，并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比，这可实现高达 10 倍的网络带宽，同时具有低尾延迟和高带宽稳定性。

谷歌的Jupi ter数据中心网络结构能让数以万计的GPU高度互连，而且能够按需调整网络拓扑，这有利于成本的降低。

A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能，这大大减少了训练大型 ML 模型的时间和成本。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练，配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点：

8 个 H100 GPU，利用英伟达的 Hopper 架构，提供 3 倍的计算吞吐量

通过英伟达 NVSwitch 和 NVLink 4.0，A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

第 4 代英特尔至强可扩展处理器

2TB 主机内存，通过 4800 MHz DDR5 DIMM

由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。

微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Oracle 的云服务提供512 个 GPU 集群的访问，并且正在开发新技术以提高 GPU 通信的速度。

此外，许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现，H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%，速度快 3 倍。

英伟达在 3 月份推出了自己的 DGX 云服务，与租用上一代 A100 GPU 相比，该服务价格昂贵。

｜搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板

谷歌一直在大力宣传其TPU v4 AI芯片，这些芯片被用于运行带有 LLM 的内部AI应用程序，例如谷歌的 Bard 产品。（点击阅读：对打英伟达A100，谷歌公布TPU v4技术细节）

｜谷歌TPU v4

谷歌表示，A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

相比A2，谷歌的 A3 超级计算机用途广泛，可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求，一刀切的方法是不够的，需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序，并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。

此外，I/O 开发者大会上，谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构，使用TPU v4 芯片和JAX 框架训练，在代码和数学，分类和问答，翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好，在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出，使谷歌在AI 领域综合实力大幅增强。

AI 市场竞争激烈，微软近年来加大了对AI 的投资和研发力度，在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务，旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局，以期在未来的市场竞争中获得更多的话语权。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
5271

浏览量
136060
超级计算机

超级计算机

+关注

关注
2

文章
483

浏览量
43486
AI

AI

+关注

关注
91

文章
41067

浏览量
302572
英伟达

英伟达

+关注

关注
23

文章
4115

浏览量
99607

原文标题：拥有 26000 个 GPU的“A3”超级计算机，能为谷歌赢下AI反攻战吗？

文章出处：【微信号：SDNLAB，微信公众号：SDNLAB】欢迎添加关注！文章转载请注明出处。

搜索历史

拥有26000个GPU的“A3”超级计算机，能为谷歌赢下AI反攻战吗？

评论