0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

SDNLAB 来源:SDNLAB 2023-05-19 16:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

云提供商正在组建 GPU 大军,以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中,谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后,谷歌加速了其 AI 开发。

在前段时间举办的谷歌年度I/O 开发者大会上,谷歌宣布了一款 AI 超级计算机“A3 ”,这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。

*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。

谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的,可提供26 exaFlops的AI性能。

A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例,它可以让GPU和GPU之间的数据绕过CPU,并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比,这可实现高达 10 倍的网络带宽,同时具有低尾延迟和高带宽稳定性。

谷歌的Jupiter数据中心网络结构能让数以万计的GPU高度互连,而且能够按需调整网络拓扑,这有利于成本的降低。

A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能,这大大减少了训练大型 ML 模型的时间和成本。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练,配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点:

8 个 H100 GPU,利用英伟达的 Hopper 架构,提供 3 倍的计算吞吐量

通过英伟达 NVSwitch 和 NVLink 4.0,A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

第 4 代英特尔至强可扩展处理器

2TB 主机内存,通过 4800 MHz DDR5 DIMM

由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。

微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Oracle 的云服务提供512 个 GPU 集群的访问,并且正在开发新技术以提高 GPU 通信的速度。

此外,许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现,H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%,速度快 3 倍。

英伟达在 3 月份推出了自己的 DGX 云服务,与租用上一代 A100 GPU 相比,该服务价格昂贵。

16a0cbbc-f621-11ed-90ce-dac502259ad0.png

|搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板

谷歌一直在大力宣传其TPU v4 AI芯片,这些芯片被用于运行带有 LLM 的内部AI应用程序,例如谷歌的 Bard 产品。(点击阅读:对打英伟达A100,谷歌公布TPU v4技术细节)

16b8d090-f621-11ed-90ce-dac502259ad0.png

|谷歌TPU v4

谷歌表示,A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

相比A2,谷歌的 A3 超级计算机用途广泛,可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求,一刀切的方法是不够的,需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序,并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。

此外,I/O 开发者大会上,谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构,使用TPU v4 芯片和JAX 框架训练,在代码和数学,分类和问答,翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好,在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出,使谷歌在AI 领域综合实力大幅增强。

AI 市场竞争激烈,微软近年来加大了对AI 的投资和研发力度,在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务,旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局,以期在未来的市场竞争中获得更多的话语权。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136060
  • 超级计算机
    +关注

    关注

    2

    文章

    483

    浏览量

    43486
  • AI
    AI
    +关注

    关注

    91

    文章

    41067

    浏览量

    302572
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99607

原文标题:拥有 26000 个 GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Neousys宸曜发布强固紧凑型边缘AI计算机,支持RTX GPU

    强固型嵌入式计算机厂商Neousys宸曜科技发布了一款紧凑的强固可靠型边缘AI计算机Nuvo-11160GC,专为严苛的工业和机器人应用而打造。Nuvo-11160GC搭载了英特尔®酷睿
    的头像 发表于 04-20 11:47 121次阅读
    Neousys宸曜发布强固紧凑型边缘<b class='flag-5'>AI</b><b class='flag-5'>计算机</b>,支持RTX <b class='flag-5'>GPU</b>

    计算机专业408考研科目

    计算机科学大门的钥匙。当你不再将这四门课视为孤立的知识点,而是看作一有机的整体时,你就已经具备了初级架构师的视野。未来的计算机人才,需要的不是只会刷题的机器,而是拥有系统观、能够透过
    发表于 04-11 16:44

    由顺序主导的计算机体系

    ,中途没有按任何符号,它自然地表述成了81,也就是8。 数字对应规则 - 日常理解:第11=1,第21=2,第31=
    发表于 02-28 22:53

    使用NVIDIA技术驱动的超级计算机助力开放科学研究

    备受瞩目的 HPC 奖决赛入围项目凭借 Alps、JUPITER 和 Perlmutter 超级计算机的支持在气候建模、流体模拟等领域取得了重大突破。
    的头像 发表于 11-25 11:17 983次阅读

    奥士康召开DGX Spark AI超级计算机项目表彰大会

    2025年9月22日,奥士康科技股份有限公司隆重召开DGXSparkAI超级计算机项目表彰大会,以表彰在客户开发、产品研发、工程设计和批量生产等方面作出突出贡献的核心团队。
    的头像 发表于 09-24 10:51 1048次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机
    的头像 发表于 09-23 17:20 1529次阅读
    NVIDIA DGX Spark桌面<b class='flag-5'>AI</b><b class='flag-5'>计算机</b>开启预订

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    保持停滞的情况,依照目前计算机的能耗效率,至少还需要30年的努力才接近其水准,见图1所示。 图1 大脑与计算机的能量效率对比 图2 类脑芯片的前瞻性研究领域AI湿件 为此,一些想
    发表于 09-06 19:12

    【作品合集】赛昉科技VisionFive 2单板计算机开发板测评

    赛昉科技VisionFive 2单板计算机开发板测评作品合集 产品介绍: 昉·星光 2是全球首款集成了3D GPU的高性能量产RISC-V单板计算机,搭载昉·惊鸿-7110(型号:JH
    发表于 09-04 09:08

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 算力达到了 21 E
    的头像 发表于 07-28 15:07 1424次阅读

    自动化计算机经过加固后有什么好处?

    让我们讨论一部署坚固的自动化计算机的一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够在各种不同的极端环境中运行。自动化
    的头像 发表于 07-21 16:44 749次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    工业计算机与商用计算机的区别有哪些

    工业计算机是一种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 909次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它正驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次都源于对技术的创造性再利用。例如,早期的
    的头像 发表于 06-26 19:39 1422次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 1348次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC 和 AI
    的头像 发表于 06-12 15:33 1644次阅读

    NVIDIA助力全球最大量子研究超级计算机

    NVIDIA 宣布将开设量子-AI 技术商业应用全球研发中心(G-QuAT),该中心部署了全球最大量子计算研究专用超级计算机 ABCI-Q。
    的头像 发表于 05-22 09:44 1088次阅读