0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

SDNLAB 来源:SDNLAB 2023-05-19 16:47 次阅读

云提供商正在组建 GPU 大军,以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中,谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后,谷歌加速了其 AI 开发。

在前段时间举办的谷歌年度I/O 开发者大会上,谷歌宣布了一款 AI 超级计算机“A3 ”,这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。

*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。

谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的,可提供26 exaFlops的AI性能。

A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例,它可以让GPU和GPU之间的数据绕过CPU,并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比,这可实现高达 10 倍的网络带宽,同时具有低尾延迟和高带宽稳定性。

谷歌的Jupiter数据中心网络结构能让数以万计的GPU高度互连,而且能够按需调整网络拓扑,这有利于成本的降低。

A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能,这大大减少了训练大型 ML 模型的时间和成本。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练,配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点:

8 个 H100 GPU,利用英伟达的 Hopper 架构,提供 3 倍的计算吞吐量

通过英伟达 NVSwitch 和 NVLink 4.0,A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

第 4 代英特尔至强可扩展处理器

2TB 主机内存,通过 4800 MHz DDR5 DIMM

由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。

微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Oracle 的云服务提供512 个 GPU 集群的访问,并且正在开发新技术以提高 GPU 通信的速度。

此外,许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现,H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%,速度快 3 倍。

英伟达在 3 月份推出了自己的 DGX 云服务,与租用上一代 A100 GPU 相比,该服务价格昂贵。

16a0cbbc-f621-11ed-90ce-dac502259ad0.png

|搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板

谷歌一直在大力宣传其TPU v4 AI芯片,这些芯片被用于运行带有 LLM 的内部AI应用程序,例如谷歌的 Bard 产品。(点击阅读:对打英伟达A100,谷歌公布TPU v4技术细节)

16b8d090-f621-11ed-90ce-dac502259ad0.png

|谷歌TPU v4

谷歌表示,A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

相比A2,谷歌的 A3 超级计算机用途广泛,可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求,一刀切的方法是不够的,需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序,并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。

此外,I/O 开发者大会上,谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构,使用TPU v4 芯片和JAX 框架训练,在代码和数学,分类和问答,翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好,在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出,使谷歌在AI 领域综合实力大幅增强。

AI 市场竞争激烈,微软近年来加大了对AI 的投资和研发力度,在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务,旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局,以期在未来的市场竞争中获得更多的话语权。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126735
  • 超级计算机
    +关注

    关注

    2

    文章

    434

    浏览量

    41613
  • AI
    AI
    +关注

    关注

    87

    文章

    26478

    浏览量

    264107
  • 英伟达
    +关注

    关注

    22

    文章

    3332

    浏览量

    87807

原文标题:拥有 26000 个 GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

    微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机这一消息属实。
    的头像 发表于 04-11 10:14 173次阅读

    诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

    诺和诺德基金会携手英伟达,共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与
    的头像 发表于 03-21 13:43 162次阅读

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    欣喜收到《量子计算机——重构未来》一书,感谢电子发烧友论坛提供了一让我了解量子计算机的机会! 自己对电子计算机有点了解,但对量子计算机
    发表于 03-05 17:37

    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供支持的 Dojo 超级计算机

    ABSTRACT摘要Tesla计划斥资5亿美元建造一台由NVIDIA的AIGPU提供支持的Dojo超级计算机,因此该公司正在加大基于AI的开发力度。JAEALOT2024年1月27日Tesla计划
    的头像 发表于 02-19 12:45 314次阅读
    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 <b class='flag-5'>AI</b> <b class='flag-5'>GPU</b> 提供支持的 Dojo <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    亚马逊云科技与 NVIDIA 宣布开展战略合作,为生成式 AI 提供全新超级计算基础架构、软件和服务

    NVL32 的 NVIDIA DGX 云 即将登陆亚马逊云科技。 两家公司联合开展“Project Ceiba”合作项目,即全球最快的 GPU 驱动 AI 超级计算机和最新 NVID
    的头像 发表于 11-29 21:00 387次阅读
    亚马逊云科技与 NVIDIA 宣布开展战略合作,为生成式 <b class='flag-5'>AI</b> 提供全新<b class='flag-5'>超级</b><b class='flag-5'>计算</b>基础架构、软件和服务

    Apple 预定 3 纳米芯片,谷歌A3 虚拟机将改变 AI 训练

    GPUA3 GPU 虚拟机,加速 AI 模型训练速度 谷歌云近日宣布,他们将在下个月正式推出搭载 Nvidia H100
    的头像 发表于 08-31 13:00 401次阅读
    Apple 预定 3 纳米芯片,<b class='flag-5'>谷歌</b>云 <b class='flag-5'>A3</b> 虚拟机将改变 <b class='flag-5'>AI</b> 训练

    gh200和超级计算机哪个牛

    gh200和超级计算机哪个牛 随着科技的不断发展,计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去几十年中,人们对
    的头像 发表于 08-17 10:51 323次阅读

    gh200和超级计算机哪个牛

    gh200和超级计算机哪个牛  随着科技的不断发展,计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去几十年中,人们对
    的头像 发表于 08-16 17:34 334次阅读

    黄仁勋有望公布DGX-GH200 AI超级计算机更多消息

    英伟达于2023年5月发布的dgx-gh200 ai超级计算机使用nvlink技术,拥有256个gh200超级芯片,运算速度为1 exapl
    的头像 发表于 08-08 11:37 454次阅读

    谷歌披露量子计算机新突破

    谷歌披露量子计算机新突破 量子计算越加被看重,很多的科技巨头包括IBM、谷歌和微软等以及众多的初创公司都在量子计算研究方面取得了重大进展。
    的头像 发表于 07-05 18:17 1188次阅读

    谷歌量子计算机新突破 可几秒内完成47年的任务

    谷歌内部的研究人员在ArXiv上发布了一篇论文,宣布在量子计算领域取得了重大突破。他们声称,谷歌最新的量子计算技术已经超越了现有的经典超级
    的头像 发表于 07-05 17:51 1357次阅读

    首台2百亿亿次超级计算机安装完成!

    Aurora超级计算机预计在2023年晚些时候投入使用。它将使用数万个Xeon Max“Sapphire Rapids”处理器、大量HBM2E内存和数据中心GPU Max“Ponte Vecchio”
    的头像 发表于 06-28 18:28 1193次阅读

    NVIDIA Cambridge-1 AI 超级计算机通过云让更多研究人员能够访问

    进行开创性的药物研究、探索替代能源还是寻找预防金融欺诈的新方法,访问先进的 AI 计算资源都是推动创新的关键。这种新的计算模式可以解决生成式 AI 所带来的挑战,并推动下一轮创新。 C
    的头像 发表于 06-19 19:05 302次阅读

    NVIDIA推出DGX GH200 AI超级计算机

    新型AI超级计算机将256个Grace Hopper超级芯片连接为巨大的、1-Exaflop、144TB GPU,用于支持生成式
    发表于 05-30 14:15 450次阅读
    NVIDIA推出DGX GH200 <b class='flag-5'>AI</b><b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

    新型 AI 超级计算机将 256 个 Grace Hopper 超级芯片连接为巨大的、1-Exaflop、144TB GPU,用于支持生成式
    的头像 发表于 05-30 01:40 1518次阅读
    COMPUTEX2023 | NVIDIA 推出 DGX GH200 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>