0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

900GB/s,NVLink才是英伟达的互联杀手锏

E4Life 来源:电子发烧友网 作者:周凯扬 2022-03-25 07:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)英伟达在GTC22上发布了全新的GraceSuperchip,该芯片中用到了NVLink-C2C技术,而去年公开的GraceHopperSuperchip同样用到了这一技术。根据英伟达超大规模计算部门副总裁IanBuck的说法,Chiplet和异构计算已经成了解决摩尔定律缓慢进展的两大有效手段。而NVLink-C2C这一面向die和chip的互联技术,成了英伟达对愈发普及的Chiplet设计的回应。

Superchip的互联


也许在不少人看来的印象中,提到NVLink会想到下图这个桥接多个高端显卡或专业显卡的RTX NVLinkBridge,其实NVLink这一技术在服务器级别的GPU中反倒更为普遍。从P100的第一代NVLink,到V100的第二代NVLink,A100的第三代NVLink,最后再到如今H100的第四代NVLink。NVLink可以说是跟着GPU架构一路推陈出新了,如今享受第四代NVLink性能的成了Hopper架构的GPU。而在英伟达的SERDES和LINK技术发展下,NVLink也从PCB、MCM走向了硅中介层和晶圆,也因此有了NVLink-C2C。

RTX NVLinkBridge/ 英伟达


GraceSuperchip显然用的是ARM NeoverseN2这一基于Armv9架构的设计,但从芯片图可以看出,单个GraceSuperchip芯片由两个GraceCPU组成,才让总核心数达到了144。而这两个CPU组成的方式,正是NVLink-C2C这一互联技术。我们在开头已经提到,去年公开的GraceHopperSuperchip同样使用了这一互联技术,只不过当时单个GraceHopperSuperchip芯片中互联的,是一个GraceCPU和一个HopperGPU。


NVLink-C2C为英伟达带来的远不止这样一对一的互联方案,而是一整套系统架构上的创新。在NVLink-C2C的支持下,英伟达可以选择一个GraceCPU,两个HopperGPU的设计,或是两个2个GraceCPU+2个HopperGPU,甚至是2个GraceCPU+8个HopperGPU。可以看出,NVLink-C2C为Grace和Hopper在数据中心和HPC应用提供了极大的扩展性。

远超PCIe5.0的性能

英伟达强调,NVLink-C2C具有前所未有的性能,比如处理器与加速器之间900GB/s的高带宽数据传输,以及快速同步和高频率更新下的超低延迟,以及在先进封装英伟达芯片下,能效比可以做到PCIe5.0的25倍,面积效率更是达到90倍。

H100 SXM5 GPU / 英伟达


NVLink-C2C900GB/s的带宽确实优秀,也与第四代NVLink的性能一致,但这并不代表只要用上NVLink就能获得,我们从Hopper架构的GPU H100的参数上也能窥见一二。要想获得900GB/s的带宽性能,必须用到SXM5的大功率卡,而不是PCIe5.0的卡,虽然前者的功耗是后者的两倍,达到了可怕的700W,但PCIe5.0的H100在总体性能和带宽上确实差SXM5一截。

两者在PCIe5.0上的带宽一致,都是128GB/s,但如果用上NVLink,PCIe5.0版本的H100只能达到600GB/s的带宽,与第三代NVLink性能一致,只有SXM5版本下的NVLink才能达到满血的900GB/s。


另外在第四代NVLink和第三代NVSwitch技术的组合下,英伟达推出了NVLinkSwitch这一方案,该系统最多支持到256个GPU,可实现57.6TB/s的总带宽。NVLinkSwitch也是英伟达DGX H100 SuperPOD系统的关键技术,英伟达甚至把自己收购的Mellanox旗下的InfiniBand节点互联技术拿来对比。从上图可以看出与基于A100+InfiniBand的SuperPOD系统相比,基于H100+NVLinkSwitch的SuperPOD系统在对分带宽上是前者的9倍。

开放而不是独占


其实NVLink的存在最初让不少人觉得有些一家独大的意思,毕竟最早NVLink仅仅只是用于多个英伟达GPU之间的互联,仅仅只是为自家的产品提供更多优势而已。而去年发布的GraceHopperSuperchip同样用到了这一技术,但这颗芯片却是英伟达设计的ArmCPU和GPU的互联。

这让人不禁担心,如果英伟达真的成功收购了Arm,会不会利用这一优势来全面垄断数据中心和HPC市场。毕竟Arm自己给出的互联方案CMN-700支持的是CCIX 2.0和CXL 2.0这两大标准互联协议,同时为第三方加速器提供PCIe5.0的连接。但就纸面参数给到的性能看来,NVLink这种专用方案似乎更加吃香一些。

不过Arm作为一家IP公司,目标自然是支持到多样化的加速器,从而全面发展Arm的生态。此前Arm在接受电子发烧友网采访时也表示,Arm期待给市场带来更多的灵活性,支持更多像Grace这样的系统。

NVLink-C2C示意图 / 英伟达


好在英伟达似乎也不打算将NVLink-C2C独占,而是宣布开放这一技术,支持集成英伟达技术的芯片半定制,通过Chiplet技术充分利用自家的GPU、DPU、NIC、CPU和SoC产品,与客户的IP进行NVLink-C2C互联。

尽管收购失败,英伟达与Arm的合作并没有就此停止,英伟达也在GTC22上宣布继续与Arm紧密合作,以支持并在未来改进Arm的AMBA CHI协议,加上对CXL的支持,从而与更多加速器和处理器做到互联。

与此同时,在全行业群策群力,试图打通生态的情况下,英伟达也并不打算将NVLink-C2C作为唯一的可选方案。所以除了NVLink-C2C外,集成了英伟达芯片的定制SoC也可选用前段时日公布的UCIe通用Chiplet互联标准,所以不必将数据中心上的CPU、DPU和GPU一整套都换成英伟达旗下的产品,给到第三方服务器芯片、DPU和加速器一个机会。不过,考虑到这两种互联方式只能选其一,英伟达也强调了NVLink-C2C经过优化,拥有更低的延迟、更高的带宽和更高的能效比,该如何选择还是看厂商自己的考量了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53534

    浏览量

    459106
  • 互联技术
    +关注

    关注

    0

    文章

    13

    浏览量

    8487
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97669
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瑞之辰传感器:从“卡脖子”到“杀手锏”的技术突围

    压力传感器的国产化替代,将这一“卡脖子”难题逐步转变为自身的技术“杀手锏”。破解“卡脖子”的技术密码当动力电池安全监测需要精度1%FS的微型压力传感器时,当工业自动化
    的头像 发表于 07-01 17:06 1742次阅读
    瑞之辰传感器:从“卡脖子”到“<b class='flag-5'>杀手锏</b>”的技术突围

    英伟预计向中国客户交付 “第三代” 阉割芯片

    基于 GB202 GPU,采用 GDDR7 内存,最大带宽可达 800Gbps,适合小规模集群推理和小模型后训练;B40/B30 芯片则保留了与 H20 相同的 NVLink 互联功能,最大带宽可达
    的头像 发表于 06-21 00:03 3544次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    NVlink1.0——初代的堆叠技术 英伟2014发布了NVLink的首个版本——NVLink 1.0。在2016年发布的P100芯片
    发表于 06-18 19:31

    英伟台北设办事处!开放NVLink生态,800GB桌面超算面世

    引擎Newton等产品,并分享了英伟在AI领域的最新进展,包括宣布在中国台湾设立办事处等。 在演讲开场,黄仁勋分享了他对AI技术的期许,
    的头像 发表于 05-20 09:11 6759次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>台北设办事处!开放<b class='flag-5'>NVLink</b>生态,800<b class='flag-5'>GB</b>桌面超算面世

    新能源电网稳压神器ACR10R-E4S/CE

    新能源发电的"卡脖子"难题日益严峻,电网频率剧烈波动,传统监测设备力不从心。ACR10R-E4S/CE智能电测设备以其快速响应、亚赫兹精度和工业以太网直连三大杀手锏,重塑调频游戏规则。
    的头像 发表于 04-10 16:47 538次阅读
    新能源电网稳压神器ACR10R-E4<b class='flag-5'>S</b>/CE

    英伟市值一夜蒸发近2万亿 英伟股价下跌超8%

    在美东时间周一,美股三大指数集体收跌,截至收盘,英伟股价下跌超8%,英伟市值一夜蒸发2650亿美元(换算下来约合人民币19345亿元);目前英伟
    的头像 发表于 03-04 10:19 988次阅读

    英伟GB300 NVL72加速研发,AOS成关键DrMOS供应商

    近日,英伟在高性能计算领域的研发步伐再次提速,其最新一代产品GB300 NVL72正加速推进。据天风证券分析师郭明錤于2月7日发布的博文透露,英伟
    的头像 发表于 02-10 17:10 1229次阅读

    机构:英伟将大砍台积电、联电80%CoWoS订单

    平台芯片停产、最新GB200A需求有限,加上GB300A需求缓慢,是英伟大幅削减2025年在台积电、联电的CoWoS-S预订量的原因,预估
    的头像 发表于 01-22 14:59 827次阅读

    郭明錤:英伟将降低CoWoS-S封装需求

    近日,天风证券知名分析师郭明錤在其个人博文中,针对英伟最新调整的Blackwell架构蓝图,提出了自己的见解。 郭明錤指出,根据英伟的最新动向,该公司在未来一年内,将显著降低对Co
    的头像 发表于 01-16 15:03 821次阅读

    英伟大幅削减台积电和联电CoWoS订单

    的原因主要有三个:一是Hopper平台芯片已经停产,导致相关需求锐减;二是最新推出的GB200A芯片市场需求有限,未能达到预期的销售目标;三是GB300A芯片的市场需求也相对缓慢,进一步影响了英伟
    的头像 发表于 01-16 14:39 956次阅读

    英伟推出GB200 NVL4芯片!液冷UQD快接头崛起

    英伟GB200 NVL4高功耗芯片亮相,超算散热革新加速。UQD快速接头作为液冷关键部件,于变局中登场,迎来机遇曙光。 在 2024 年美国超级计算大会(SC24)这场备受全球关注的科技盛会
    的头像 发表于 01-10 16:58 1802次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>推出<b class='flag-5'>GB</b>200 NVL4芯片!液冷UQD快接头崛起

    英伟GB300 AI服务器预计2025年Q2发布,强化水冷散热需求

    近日,据供应链最新消息,英伟正紧锣密鼓地设计其下一代GB300 AI服务器,并预计在2025年第二季度正式发布。随后,该产品将在第三季度进入试产阶段,标志着英伟
    的头像 发表于 01-06 10:19 1857次阅读

    英伟GB300 AI服务器订单配置初定

    近日,据业界消息透露,英伟已初步敲定了其下一代GB300 AI服务器产品线的订单配置。预计英伟将在明年3月的GTC大会上正式揭晓这一全新
    的头像 发表于 12-25 10:52 1600次阅读

    英伟GB300订单配置初步敲定

    近日,据报道,英伟公司已经初步确定了其下一代GB300 AI服务器产品线的订单配置。预计英伟将在明年的3月GTC大会上正式揭晓这一全新产
    的头像 发表于 12-24 10:09 1703次阅读

    刚刚!英伟最新回应!

    12月10日消息,据报道,英伟市值一夜蒸发掉了889亿美元(约合人民币6460亿元)。 据此前媒体报道,近日英伟公司因涉嫌违反《中华人民共和国反垄断法》及《市场监管总局关于附加限制
    的头像 发表于 12-10 18:13 1182次阅读