0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

SDNLAB 来源:SDNLAB 2023-05-19 16:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

云提供商正在组建 GPU 大军,以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中,谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后,谷歌加速了其 AI 开发。

在前段时间举办的谷歌年度I/O 开发者大会上,谷歌宣布了一款 AI 超级计算机“A3 ”,这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。

*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。

谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的,可提供26 exaFlops的AI性能。

A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例,它可以让GPU和GPU之间的数据绕过CPU,并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比,这可实现高达 10 倍的网络带宽,同时具有低尾延迟和高带宽稳定性。

谷歌的Jupiter数据中心网络结构能让数以万计的GPU高度互连,而且能够按需调整网络拓扑,这有利于成本的降低。

A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能,这大大减少了训练大型 ML 模型的时间和成本。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练,配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点:

8 个 H100 GPU,利用英伟达的 Hopper 架构,提供 3 倍的计算吞吐量

通过英伟达 NVSwitch 和 NVLink 4.0,A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

第 4 代英特尔至强可扩展处理器

2TB 主机内存,通过 4800 MHz DDR5 DIMM

由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。

微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Oracle 的云服务提供512 个 GPU 集群的访问,并且正在开发新技术以提高 GPU 通信的速度。

此外,许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现,H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%,速度快 3 倍。

英伟达在 3 月份推出了自己的 DGX 云服务,与租用上一代 A100 GPU 相比,该服务价格昂贵。

16a0cbbc-f621-11ed-90ce-dac502259ad0.png

|搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板

谷歌一直在大力宣传其TPU v4 AI芯片,这些芯片被用于运行带有 LLM 的内部AI应用程序,例如谷歌的 Bard 产品。(点击阅读:对打英伟达A100,谷歌公布TPU v4技术细节)

16b8d090-f621-11ed-90ce-dac502259ad0.png

|谷歌TPU v4

谷歌表示,A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

相比A2,谷歌的 A3 超级计算机用途广泛,可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求,一刀切的方法是不够的,需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序,并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。

此外,I/O 开发者大会上,谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构,使用TPU v4 芯片和JAX 框架训练,在代码和数学,分类和问答,翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好,在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出,使谷歌在AI 领域综合实力大幅增强。

AI 市场竞争激烈,微软近年来加大了对AI 的投资和研发力度,在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务,旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局,以期在未来的市场竞争中获得更多的话语权。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134471
  • 超级计算机
    +关注

    关注

    2

    文章

    479

    浏览量

    43154
  • AI
    AI
    +关注

    关注

    89

    文章

    38134

    浏览量

    296730
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97680

原文标题:拥有 26000 个 GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA技术驱动的超级计算机助力开放科学研究

    备受瞩目的 HPC 奖决赛入围项目凭借 Alps、JUPITER 和 Perlmutter 超级计算机的支持在气候建模、流体模拟等领域取得了重大突破。
    的头像 发表于 11-25 11:17 442次阅读

    【作品合集】赛昉科技VisionFive 2单板计算机开发板测评

    赛昉科技VisionFive 2单板计算机开发板测评作品合集 产品介绍: 昉·星光 2是全球首款集成了3D GPU的高性能量产RISC-V单板计算机,搭载昉·惊鸿-7110(型号:JH
    发表于 09-04 09:08

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 算力达到了 21 E
    的头像 发表于 07-28 15:07 921次阅读

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它正驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次都源于对技术的创造性再利用。例如,早期的
    的头像 发表于 06-26 19:39 983次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 836次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC 和 AI
    的头像 发表于 06-12 15:33 1043次阅读

    NVIDIA助力全球最大量子研究超级计算机

    NVIDIA 宣布将开设量子-AI 技术商业应用全球研发中心(G-QuAT),该中心部署了全球最大量子计算研究专用超级计算机 ABCI-Q。
    的头像 发表于 05-22 09:44 680次阅读

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technolog
    的头像 发表于 03-20 18:59 1275次阅读
    NVIDIA GTC2025 亮点  NVIDIA推出 DGX Spark个人<b class='flag-5'>AI</b><b class='flag-5'>计算机</b>

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technolog
    发表于 03-19 09:59 504次阅读
       NVIDIA 宣布推出 DGX Spark 个人 <b class='flag-5'>AI</b> <b class='flag-5'>计算机</b>

    荷兰与英伟达携手推进AI超级计算机设施建设

    超级计算机”的先进设施,以推动人工智能技术的研发和应用。该设施将作为欧盟一系列旨在加强欧洲数字经济的重要项目之一,为欧洲的科技创新和数字经济发展注入新的活力。 通过与英伟达的合作,荷兰政府期望能够加速AI
    的头像 发表于 01-10 15:34 781次阅读

    NVIDIA推出个人AI超级计算机Project DIGITS

    NVIDIA 推出个人 AI 超级计算机 NVIDIA Project DIGITS,全球的 AI 研究员、数据科学家和学生都可获取 NVIDIA Grace Blackwell 平台
    的头像 发表于 01-08 11:03 1161次阅读

    联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超级芯片,将应用于NVIDIA 的个人AI超级计算机NVIDIA® Project DIGIT
    的头像 发表于 01-07 16:26 830次阅读

    NVIDIA发布高性价比生成式AI超级计算机

    NVIDIA近日推出了一款全新的生成式AI超级计算机——Jetson Orin Nano Super开发者套件,这款超级计算机不仅体积小巧,
    的头像 发表于 12-24 10:44 1012次阅读

    NVIDIA 推出高性价比的生成式 AI 超级计算机

    计算机,具有更高的性价比,通过软件升级即可实现性能提升。   全新 NVIDIA Jetson Orin Nano Super 开发者套件只有手掌大小,能够为商业 AI 开发者、科技爱好者和学生等各类
    发表于 12-18 17:01 949次阅读
    NVIDIA 推出高性价比的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 955次阅读