0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Grace设计是为了填补英伟达人工智能服务器中CPU的空缺

SSDFans 来源:ssdfans 作者:ssdfans 2021-04-19 16:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4月12日上午,英伟达召开了春季GPU技术大会,图形和加速器设计师宣布他们将再次设计自己的基于ArmCPU。这款CPU以计算机编程先驱、美国海军少将格蕾丝•霍珀(Grace Hopper)的名字命名,它是英伟达在全面垂直整合硬件堆栈方面的最新尝试,能够在提供常规GPU产品的同时提供高性能CPU。据英伟达介绍,该芯片是专为大规模神经网络工作负载设计的,预计将于2023年在英伟达的产品中使用。

距离芯片准备就绪还有两年的时间,英伟达这次表现得相对低调,只提供了芯片的部分细节。例如,它将基于Arm的Neoverse内核的未来迭代产品,因为目前更多关注的是英伟达未来的工作流模式,而不是速度和输出。至少目前,英伟达已经明确表示,Grace是英伟达的内部产品,将作为其大型服务器产品的一部分。该公司并没有直接瞄准英特尔Xeon或AMD EPYC服务器市场,相反,他们正在建造自己的芯片来补充他们的GPU产品,创造一种可以直接连接他们的GPU的专用芯片,帮助处理参数规模达到万亿级的人工智能模型。

82a64638-9ed6-11eb-8b86-12bb97331649.jpg

总的来说,Grace的设计是为了填补英伟达人工智能服务器中CPU的空缺。公司的GPU非常适合于特定的深度学习模型,但不是所有模型都必须依赖于GPU。英伟达当前的服务器产品通常依赖于AMD的EPYC处理器,该处理器对于一般的计算目的来说速度非常快,但缺少英伟达寻找的那种高速I/O和深度学习优化。更重要的是,英伟达目前因使用PCI Express进行CPU-GPU连接而遇到瓶颈。它们的GPU可以通过NVLink在彼此之间快速对话,但不能返回主机CPU或系统RAM

这个问题的解决方案是使用NVLink进行CPU-GPU通信,就像Grace之前的情况一样。正是出于这个原因,英伟达曾与OpenPOWER基金会合作,将NVLink引入到POWER9中。然而,随着POWER的流行度下降,以及POWER10跳过了NVLink,这种关系似乎正在逐渐消失。而英伟达正在以自己的方式构建带有NVLink功能的Arm服务器CPU。

根据英伟达的说法,最终的结果将是一种高性能、高带宽的CPU与未来一代的英伟达服务器GPU协同工作。在英伟达谈论将每个英伟达 GPU与一个Grace CPU集成在一块板上的情况下(类似于今天的夹层卡),不仅CPU性能和系统内存随GPU的数量而增加,而且通过回旋方式,Grace可以用作英伟达 GPU的各种协处理器。这是一个非常英伟达解决方案,不仅可以提高性能,而且在AMD或Intel的CPU与GPU尝试类似的集成与融合的情况下,可以给他们一个反击。

到2023年,英伟达将达到NVLink 4, SoC和GPU之间的累积带宽将至少达到900GB/秒,Grace SoC之间的累积带宽将超过600GB/秒。关键是,这大于SoC的内存带宽,意味着英伟达的GPU将有一个到CPU的高速缓存链接,可以在全带宽下访问系统内存,同时也允许整个系统拥有一个单一的共享内存地址空间。英伟达将此描述为平衡系统中可用的带宽数量。拥有内置CPU是增加内存有效量的主要手段,因为英伟达的GPU仍然是大型神经网络的主要限制因素,由于内存容量的限制,只能有效地运行与本地内存池一样大的网络。

而且,这种以内存为中心的策略也反映在Grace的内存池设计中。由于英伟达将CPU与GPU放在一个共享的软件包中,因此他们打算将RAM放在它旁边。配备Grace的GPU模块将包括一定数量的LPDDR5x内存,而英伟达的目标是至少500GB /秒的内存带宽。在2023年,LPDDR5x可能会成为带宽最高的非显卡存储器选项,此外,由于LPDDR5x技术的根源是移动设备,而且追踪长度非常短,英伟达还在大力宣传使用LPDDR5x可以提高能源效率。而且,由于这是服务器部分,Grace的内存也将启用ECC。

至于CPU性能,实际上这是英伟达所说得最少的部分。该公司将使用下一代Arm的Neoverse CPU内核,,在这方面,最初的N1设计已经吸引了大量眼球。除此之外,该公司还表示,在SPECrate2017_int_base的吞吐量基准测试中,这款处理器的内核将突破300点,与AMD的一些第二代64核EPYC处理器相当。该公司也没有透露太多关于CPU是如何配置的,或者针对神经网络处理的优化是如何添加的。但由于Grace的目的是支持英伟达的GPU,预计它会在GPU普遍较弱的情况下变得更强。

另外,如前所述,英伟达为Grace设计的远大目标是大大减少了大型神经网络模型训练所需的时间。英伟达的目标是在1万亿参数模型上提高10倍的性能,

而他们对64个模块的Grace+A100系统(具有理论上的NVLink 4支持)的性能预测将把这种模型的训练时间从一个月缩短至三天。或者,能够在8个模块的系统上对5000亿个参数模型进行实时推断。

总体而言,这是英伟达在数据中心CPU市场的第二次真正尝试,也是第一次有可能成功。英伟达的Project Denver计划最初是在十年前宣布的,但从未像英伟达预期的那样取得真正的成果。定制的Arm内核家族从来都不够好,也从未使用英伟达的移动SoC制成。相比之下,Grace对于英伟达来说是一个更安全的项目。它们只是授予Arm内核许可,而不是构建自己的内核,这些内核也将被其他许多方使用。因此,英伟达的风险降低了,主要是在I/O和内存方面做得很好,并保持最终设计的节能效果。

如果一切都按计划进行,那么有望在2023年见到Grace。英伟达已经确认Grace模块将可用于HGX载板,以及扩展为DGX和所有其他使用这些板的系统。因此,尽管我们还没有看到英伟达Grace计划的全部内容,但很明显,他们正在计划使其成为未来服务器产品的核心部分。

两个超级计算机客户:CSCS和LANL

尽管Grace要到2023年才能发货,但英伟达已经找到了首批客户,而且他们都是超级计算机的客户。瑞士国家超级计算中心(CSCS)和洛斯阿拉莫斯国家实验室今天宣布,他们将订购基于Grace的超级计算机。这两套系统都将由惠普的克雷集团(Cray group)建造,预计将于2023年上线。

CSCS的系统称为Alps,将替换其当前的Piz Daint系统,即Xeon和英伟达 P100集群。根据两家公司的说法,Alps将提供20 ExaFLOPS的AI性能,大概是CPU,CUDA内核和张量内核吞吐量的组合。推出时,Alps应该是世界上最快的以人工智能为中心的超级计算机。

有趣的是,CSCS对系统的雄心壮志不仅限于机器学习工作负载。该研究所表示,他们将把Alps作为通用系统,从事更传统的HPC类型任务以及以AI为重点的任务。这包括CSCS对天气和气候的传统研究,而AI之前的Piz Daint也已用于该研究。

如前所述,Alps将由HPE建造,后者将基于其先前宣布的Cray EX架构。这将使英伟达的Grace与AMD的EPYC处理器一起成为Cray EX的第二个CPU选项。

与此同时,Los Alamos的系统正在开发,作为实验室与英伟达之间持续合作的一部分,而LANL将成为美国第一个使用Grace系统的客户。尽管实验室计划利用Grace提供的最大数据集规模来计划将其用于3D仿真,但LANL并未讨论系统的预期性能是否超出“领导级别”的事实。LANL系统定于2023年初交付。

原文标题:Grace:英伟达数据中心CPU市场的第一次成功尝试!

文章出处:【微信公众号:ssdfans】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11224

    浏览量

    223088
  • 英伟达
    +关注

    关注

    23

    文章

    4047

    浏览量

    97758

原文标题:Grace:英伟达数据中心CPU市场的第一次成功尝试!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从GPU到ASIC,AI服务器电源芯片爆发!

    该公司的市值将在未来五年内翻一番以上。他预计,假设英伟达占据了30%的市场份额,2030年英伟达的年收入将达到6000亿美元左右。   IDC数据显示,2024年全球人工智能服务器市场
    的头像 发表于 08-25 08:02 1.1w次阅读
    从GPU到ASIC,AI<b class='flag-5'>服务器</b>电源芯片爆发!

    市值近4万亿美元!英伟达GB300服务器正式出货

    电子发烧友网报道(文 / 吴子鹏)当地时间 7 月 3 日,人工智能芯片龙头英伟达股价表现亮眼,盘中一度涨超 2%,触及 160.98 美元的历史新高,市值随之突破 3.92 万亿美元。虽然当天未
    的头像 发表于 07-06 05:28 6593次阅读
    市值近4万亿美元!<b class='flag-5'>英伟</b>达GB300<b class='flag-5'>服务器</b>正式出货

    车斫轮大模型通过国家生成式人工智能服务备案

    9月14日,国家互联网信息办公室发布最新公告,“车斫轮”大模型通过“生成式人工智能服务”备案,标志着其在数据安全治理、模型机制透明度、内容生成合规性等核心维度已全面对标国家监管要求,正式具备向行业
    的头像 发表于 09-16 09:16 647次阅读

    顺络电子核心产品破解AI服务器供电难题

    2025年,人工智能正以前所未有的速度重塑全球经济格局,从大模型训练到行业应用落地,AI服务器作为算力核心基础设施,成为科技竞争的战略高地。AI 服务器的崛起,是人工智能时代发展的必然
    的头像 发表于 09-05 17:04 841次阅读
    顺络电子核心产品破解AI<b class='flag-5'>服务器</b>供电难题

    Lambda采用Supermicro NVIDIA Blackwell GPU服务器集群构建人工智能工厂

    大批量 Supermicro GPU 优化服务器(包括基于 NVIDIA Blackwell 的系统),以扩展其人工智能基础设施并向客户交付高性能计算系统。此次合作于今年 6 月率先在俄亥俄州哥伦布市的 Cologix COL4 ScalelogixSM 数据中心启动,为
    的头像 发表于 08-30 16:55 637次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:23

    勇艺达人工智能研究院迎大咖加盟

    近日,深圳勇艺达总部隆重举行 “数智融合 聚贤赋能 —— 勇艺达人工智能研究院高端人才聘任仪式”,正式聘请黄道权先生与吴天准先生加盟,为研究院注入顶尖智慧力量,此举标志着勇艺达在人工智能领域的战略布局迈出关键一步,也是践行 “人机智慧融合领航者” 使命的重要举措。
    的头像 发表于 07-10 18:04 800次阅读

    英伟达Q3将发布新一代人工智能系统

    5月19日消息,据外媒报道,在台北国际电脑展上;黄仁勋宣布英伟达将于2025年第三季度推出下一代GB300人工智能系统。 据悉,GB300 虽然与上一代 GB200 拥有相同的物理占地面积、相同
    的头像 发表于 05-19 18:02 537次阅读

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    新版兆芯服务器应用解决方案发布

    近期,兆芯携手众多产业生态伙伴,充分发挥自主 CPU 在兼容性等方面的显著优势,围绕KH-40000平台服务器等硬件,聚焦云服务人工智能、数据库、中间件、高性能存储以及灾备等重点应用
    的头像 发表于 04-03 16:55 976次阅读

    声智APP通过北京市生成式人工智能服务登记

    近日,声智APP已正式通过北京市第二批生成式人工智能服务登记,成为《生成式人工智能服务管理暂行办法》(以下简称《办法》)实施以来,北京市累计已完成46款生成式
    的头像 发表于 03-19 16:33 827次阅读

    荷兰与英伟达、AMD商讨共建人工智能设施

    英伟达和AMD等科技巨头进行了深入的战略讨论。此次访问旨在加强荷兰与全球科技界的联系,共同探索人工智能领域的合作机会。 在与英伟达和AMD的会谈,迪尔克·贝尔亚尔茨大臣重点探讨了为
    的头像 发表于 01-10 13:36 1027次阅读

    鼎盛智能推出基于Ampere的Arm服务器

    随着数字化、智能化转型的加速推进,服务器市场将迎来更加广阔的发展空间,以Arm架构为代表的非X86服务器凭借功耗优势、高性能、支持大规模部署等优势,广泛适用于云游戏、云手机、云桌面等低负载应用、大数据分析、
    的头像 发表于 01-03 14:15 1189次阅读
    鼎盛<b class='flag-5'>智能</b>推出基于Ampere的Arm<b class='flag-5'>服务器</b>

    服务器 Flexus X 实例,镜像切换与服务器压力测试

    服务器 Flexus X 压力测试 1、购买华为云 Flexus X 实例 Flexus云服务器X实例-华为云 (huaweicloud.com)   2、xshell 远程连接服务器 3、安装
    的头像 发表于 01-03 09:23 820次阅读
    云<b class='flag-5'>服务器</b> Flexus X 实例,镜像切换与<b class='flag-5'>服务器</b>压力测试