云提供商正在组建 GPU 大军,以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中,谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后,谷歌加速了其 AI 开发。
在前段时间举办的谷歌年度I/O 开发者大会上,谷歌宣布了一款 AI 超级计算机“A3 ”,这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。
*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。
谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的,可提供26 exaFlops的AI性能。
A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例,它可以让GPU和GPU之间的数据绕过CPU,并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比,这可实现高达 10 倍的网络带宽,同时具有低尾延迟和高带宽稳定性。
谷歌的Jupiter数据中心网络结构能让数以万计的GPU高度互连,而且能够按需调整网络拓扑,这有利于成本的降低。
A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能,这大大减少了训练大型 ML 模型的时间和成本。
A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练,配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点:
8 个 H100 GPU,利用英伟达的 Hopper 架构,提供 3 倍的计算吞吐量
通过英伟达 NVSwitch 和 NVLink 4.0,A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s
第 4 代英特尔至强可扩展处理器
2TB 主机内存,通过 4800 MHz DDR5 DIMM
由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍
GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。
微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Oracle 的云服务提供512 个 GPU 集群的访问,并且正在开发新技术以提高 GPU 通信的速度。
此外,许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现,H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%,速度快 3 倍。
英伟达在 3 月份推出了自己的 DGX 云服务,与租用上一代 A100 GPU 相比,该服务价格昂贵。

|搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板
谷歌一直在大力宣传其TPU v4 AI芯片,这些芯片被用于运行带有 LLM 的内部AI应用程序,例如谷歌的 Bard 产品。(点击阅读:对打英伟达A100,谷歌公布TPU v4技术细节)

|谷歌TPU v4
谷歌表示,A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。
相比A2,谷歌的 A3 超级计算机用途广泛,可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求,一刀切的方法是不够的,需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序,并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。
此外,I/O 开发者大会上,谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构,使用TPU v4 芯片和JAX 框架训练,在代码和数学,分类和问答,翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好,在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出,使谷歌在AI 领域综合实力大幅增强。
AI 市场竞争激烈,微软近年来加大了对AI 的投资和研发力度,在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务,旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局,以期在未来的市场竞争中获得更多的话语权。
审核编辑 :李倩
-
gpu
+关注
关注
28文章
5099浏览量
134471 -
超级计算机
+关注
关注
2文章
479浏览量
43154 -
AI
+关注
关注
89文章
38134浏览量
296730 -
英伟达
+关注
关注
23文章
4040浏览量
97680
原文标题:拥有 26000 个 GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?
文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
使用NVIDIA技术驱动的超级计算机助力开放科学研究
【作品合集】赛昉科技VisionFive 2单板计算机开发板测评
NVIDIA助力AI超级计算机Isambard-AI投入使用
NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展
Blue Lion超级计算机将在NVIDIA Vera Rubin上运行
NVIDIA技术赋能欧洲最快超级计算机JUPITER
NVIDIA助力全球最大量子研究超级计算机
NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机
NVIDIA 宣布推出 DGX Spark 个人 AI 计算机
荷兰与英伟达携手推进AI超级计算机设施建设
NVIDIA推出个人AI超级计算机Project DIGITS
联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片
NVIDIA发布高性价比生成式AI超级计算机
NVIDIA 推出高性价比的生成式 AI 超级计算机

拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?
评论