0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解NVIDIA首款服务器CPU

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-25 15:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新的芯片设计反映了 NVIDIA 在 AI、高性能计算和边缘计算领域平台创新的广度和深度。

在为期两天的四场演讲中,NVIDIA 高级工程师介绍了现代数据中心和网络边缘系统在加速计算方面的创新。

虚拟 Hot Chips 大会是处理器和系统架构师的年度聚会。NVIDIA 高级工程师在演讲中披露了 NVIDIA 首款服务器 CPU、Hopper GPU、新版 NVSwitch 互连芯片和 NVIDIA Jetson Orin 系统模块 (SoM) 的性能数据和其他技术细节。

这些演讲就 NVIDIA 平台如何在性能、效率、规模和安全性方面达到更高水平提供了新见解。

具体来说,演讲展示了某种设计理念,即在 GPU、 CPU 和 DPU 充当对等处理器的整个芯片、系统和软件堆栈中进行创新。他们共同创建的平台已经在云服务提供商、超级计算中心、企业数据中心和自主系统内运行 AI、数据分析和高性能计算工作。

了解 NVIDIA 首款服务器 CPU

数据中心需要灵活的 CPU、GPU 和其他加速器集群共享海量内存池,以提供当今工作负载所需的高效性能。

为满足这一需求,NVIDIA 的杰出工程师兼 15 年资深员工 Jonathon Evans 介绍了 NVIDIA NVLink-C2C。它以每秒 900 GB 的速度连接 CPU 和 GPU,归功于每比特仅消耗 1.3 皮焦耳的数据传输,其能效是现有 PCIe 5.0 标准的 5 倍。

NVLink-C2C 连接两个 CPU 芯片,可创建具有 144 个 Arm Neoverse 核心和 512 GB 内存的 NVIDIA Grace CPU——用于解决全球大型计算问题的处理器。

为更大限度地提高效率,Grace CPU 使用 LPDDR5X 内存。它可实现每秒 1 TB 的内存带宽,同时将整个复合体的功耗保持在 500 瓦。

一个链接,多种用途

NVLink-C2C 还在 NVIDIA Grace Hopper 超级芯片中将 Grace CPU 和 Hopper GPU 芯片作为内存共享对等体关联,更大限度地加速像 AI 训练这样对性能要求很高的作业。

任何人都可以使用 NVLink-C2C 构建定制小芯片,以协调地连接 NVIDIA GPU、CPU、DPU 和 SoC,扩展这一新的集成产品类别。互连将支持 Arm 和 x86 处理器各自使用的 AMBA CHI 和 CXL 协议。

Grace 和 Grace Hopper 的首个内存基准测试

为了在系统层面进行扩展,新的 NVIDIA NVSwitch 将多台服务器连接到一台 AI 超级计算机。它使用 NVLink,互联速度为每秒 900 GB,是 PCIe 5.0 带宽的 7 倍以上。

NVSwitch 使用户能够将 32 个 NVIDIA DGX H100 系统连接到一台 AI 超级计算机中,这台超级计算机可以提供百亿亿次级峰值 AI 性能。

NVIDIA 的两位资深工程师 Alexander Ishii 和 Ryan Wells 介绍该交换机如何助力用户构建可支持多达 256 个 GPU 的系统,以处理要求严苛的工作负载,例如训练具有超过 1 万亿参数的 AI 模型。

该交换机包括使用 NVIDIA SHARP 技术加速数据传输的引擎。SHARP 是网络计算功能,最初在 NVIDIA Quantum InfiniBand 网络上使用。它可以使通信密集型 AI 应用的数据吞吐量翻倍。

NVSwitch 系统支持百亿亿次级 AI 超级计算机

Jack Choquette 是在 NVIDIA 任职 14 年的杰出高级工程师,他详细介绍了 NVIDIA H100 Tensor Core GPU(也称为 Hopper)。

除使用新的互连技术扩展到新的高度外,它还包括许多先进功能,可提升加速器的性能、效率和安全性。

与上一代相比,Hopper 的新 Transformer 引擎和升级版 Tensor Core 可在使用全球大型神经网络模型进行 AI 推理时,将速度提升 30 倍。此外,它采用全球首款 HBM3 内存系统,可提供高达 3 TB 的内存带宽,这是 NVIDIA 有史以来幅度超大的代际提升。

其他新功能包括:

Hopper 添加了针对多租户、多用户配置的虚拟化支持。

新的 DPX 指令集可加快选定映射、DNA 和蛋白质分析应用的递归循环速度。

Hopper 还支持通过机密计算增强安全性。

Choquette 在职业生涯早期曾是任天堂 64 游戏机的首席芯片设计师,他还介绍了一些 Hopper 进步背后的并行计算技术。

Michael Ditty 是 Orin 的首席架构师并在 NVIDIA 任职 17 年,他讲解了 NVIDIA Jetson AGX Orin(适用于边缘 AI、机器人开发和高级自主机器的引擎)的新性能规格。

NVIDIA Jetson AGX Orin 集成了 12 个 Arm Cortex-A78 核心和一个 NVIDIA Ampere 架构 GPU,可为 AI 推理作业提供每秒高达 275 万亿次运算。相较上一代,能效提升 2.3 倍,性能提升高达 8 倍。

新的生产模块包含高达 32 GB 的内存,是兼容系列的一部分,可缩小至口袋大小的 5W Jetson Nano 开发者套件。

NVIDIA Orin 的性能基准测试

所有新芯片都支持 NVIDIA 软件堆栈,该堆栈可加速 700 多个应用,为 250 万名开发者所用。

它基于 CUDA 编程模型,包含数十个面向垂直市场的 NVIDIA SDK,例如汽车 (DRIVE) 和医疗健康 (Clara),以及推荐系统 (Merlin) 和对话式 AI (Riva) 等技术。

各大云服务和系统制造商均提供 NVIDIA AI 平台。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222895
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109068
  • 服务器
    +关注

    关注

    13

    文章

    10094

    浏览量

    90870
  • AI
    AI
    +关注

    关注

    89

    文章

    38089

    浏览量

    296415

原文标题:Hot Chips | NVIDIA 分享关于 Grace CPU、Hopper GPU、NVLink Switch 最新细节

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    历史首次!AMD服务器CPU市占率达50%

      电子发烧友网报道(文/黄晶晶)近日,根据市场研究机构PassMark对于服务器CPU 市场占有率调查的数据显示,截至2025年一季度AMD 在服务器CPU 市场市占率首次达到50%
    的头像 发表于 08-11 03:20 9953次阅读
    历史首次!AMD<b class='flag-5'>服务器</b><b class='flag-5'>CPU</b>市占率达50%

    多核服务器CPU亲和性配置与负载均衡优化

    某大厂的资深架构师小王最近遇到了一个头疼的问题:新采购的双路AMD EPYC 7763(128核心)服务器,在高并发场景下的性能表现竟然还不如之前的32核服务器。经过深入排查,发现问题出在CPU亲和性配置上。通过正确的配置,最终
    的头像 发表于 08-27 14:45 574次阅读

    华纳云服务器角色服务器失败的原因和解决办法

    是常见的,这可能导致数据丢失、系统停机和效率降低等严重后果。因此,了解服务器角色故障的原因和影响,并采取有效的预防措施,对于确保业务连续性和数据安全性至关重要。 一、服务器角色故障的原因 1. 硬件故障:硬盘驱动
    的头像 发表于 07-17 18:18 426次阅读

    国外bgp服务器多少钱?# 服务器

    服务器
    jf_57681485
    发布于 :2025年04月24日 14:19:00

    GPU服务器CPU服务器的区别:一文就能给您说透这两者该怎么选!

    最近,小编这里收到很多企业客户的提问:"我们的业务到底该选GPU服务器还是CPU服务器?" 作为深耕算力领域8年的工程师,今天小编用简单明了的内容给您讲透两者的本质区别,帮您避开选型坑。
    的头像 发表于 04-23 13:18 1343次阅读
    GPU<b class='flag-5'>服务器</b>与<b class='flag-5'>CPU</b><b class='flag-5'>服务器</b>的区别:一文就能给您说透这两者该怎么选!

    新加坡服务器延迟大吗?真相在这里#新加坡服务器 #服务器

    服务器
    jf_57681485
    发布于 :2025年04月18日 13:48:50

    华为服务器诊断工具

    华为服务器诊断工具,显示888
    发表于 04-14 14:08 0次下载

    龙芯3C6000服务器CPU,16核32线程,国产CPU新标杆!

    服务器
    国产计算机小秦
    发布于 :2025年04月10日 11:10:04

    龙芯3C6000服务器CPU,16核32线程,国产CPU新标杆!

    服务器
    jf_10805031
    发布于 :2025年04月09日 10:44:40

    DeepSeek企业级部署服务器资源计算 以raksmart裸机云服务器为例

    以RakSmart裸机云服务器为例,针对DeepSeek企业级部署的服务器资源计算指南,涵盖GPU/CPU/内存/存储/网络等核心维度的详细计算方法与配置推荐,主机推荐小编为您整理发布以raksmart裸机云
    的头像 发表于 03-21 10:17 815次阅读

    NTP校时服务器 时钟同步服务器

    服务器
    jf_75250307
    发布于 :2025年03月19日 20:56:34

    RISC-V架构服务器,助力行业精准适配AI场景

    RISC-V融合服务器RS-SRM120为2U双路异构服务器产品,搭载双RISC-V指令集64核处理SG2042,通过高效的双芯互联架构,提供强大的智算能力。支持CV模型、LLM等多种深度学习模型
    的头像 发表于 02-28 16:34 1494次阅读
    <b class='flag-5'>首</b><b class='flag-5'>款</b>RISC-V架构<b class='flag-5'>服务器</b>,助力行业精准适配AI场景

    服务器 Flexus X 实例:轻量级 http 服务器 Tinyhttpd 部署

    Flexus 云服务器 X 实例 是华为云推出的一高性能、高可靠性的云服务器产品,它专为满足企业级用户对计算资源的严格要求而设计。本篇文章通过部署 轻量级 http 服务器 Tiny
    的头像 发表于 01-07 16:59 912次阅读
    云<b class='flag-5'>服务器</b> Flexus X 实例:轻量级 http <b class='flag-5'>服务器</b> Tinyhttpd 部署

    服务器 Flexus X 实例,镜像切换与服务器压力测试

    服务器 Flexus X 压力测试 1、购买华为云 Flexus X 实例 Flexus云服务器X实例-华为云 (huaweicloud.com)   2、xshell 远程连接服务器 3、安装
    的头像 发表于 01-03 09:23 801次阅读
    云<b class='flag-5'>服务器</b> Flexus X 实例,镜像切换与<b class='flag-5'>服务器</b>压力测试