0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达官宣新一代Blackwell架构,把AI扩展到万亿参数

奇异摩尔 来源:奇异摩尔 2024-03-19 14:22 次阅读

基于Chiplet与片间互联技术,800Gb/s RNIC,1.8TB/sNVLink,英伟达正一步步构建出大型AI超算集群。互联效率定义LLM效率,互联元年正式开启。

AI春晚GTC开幕,皮衣老黄再次燃爆全场。

时隔两年,英伟达官宣新一代Blackwell架构,定位直指“新工业革命的引擎” ,“把AI扩展到万亿参数”。

作为架构更新大年,本次大会亮点颇多:

宣布GPU新核弹B200,超级芯片GB200

Blackwell架构新服务器,一个机柜顶一个超算

推出AI推理微服务NIM,要做世界AI的入口

新光刻技术cuLitho进驻台积电,改进产能。
……

8年时间,AI算力已增长1000倍。

老黄断言“加速计算到达了临界点,通用计算已经过时了”。

我们需要另一种方式来进行计算,这样我们才能够继续扩展,这样我们才能够继续降低计算成本,这样我们才能够继续进行越来越多的计算。

老黄这次主题演讲题目为《见证AI的变革时刻》,但不得不说,英伟达才是最大的变革本革。

GPU的形态已彻底改变

我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。

Blackwell新架构硬件产品线都围绕这一句话展开。

通过芯片,与芯片间的连接技术,一步步构建出大型AI超算集群。

4nm制程达到瓶颈,就把两个芯片合在一起,以10TB每秒的满血带宽互联,组成B200 GPU,总计包含2080亿晶体管

没错,B100型号被跳过了,直接发布的首个GPU就是B200。

两个超级芯片装到主板上,成为一个Blackwell计算节点。

18个这样的计算节点共有36CPU+72GPU,组成更大的“虚拟GPU”。

它们之间由今天宣布的NVIDIA Quantum-X800 InfiniBand和Spectrum-X800以太网平台连接,可提供速度高达800Gb/s的网络

在NVLink Switch支持下,最终成为“新一代计算单元”GB200 NVL72

一个像这样的“计算单元”机柜,FP8精度的训练算力就高达720PFlops,直逼H100时代一个DGX SuperPod超级计算机集群(1000 PFlops)。

与相同数量的72个H100相比,GB200 NVL72对于大模型推理性能提升高达30倍成本和能耗降低高达25倍

把GB200 NVL72当做单个GPU使用,具有1.4EFlops的AI推理算力和30TB高速内存。

再用Quantum InfiniBand交换机连接,配合散热系统组成新一代DGX SuperPod集群。

DGX GB200 SuperPod采用新型高效液冷机架规模架构,标准配置可在FP4精度下提供11.5 Exaflops算力和240TB高速内存。

此外还支持增加额外的机架扩展性能。

最终成为包含32000 GPU的分布式超算集群。

老黄直言,“英伟达DGX AI超级计算机,就是AI工业革命的工厂”。

将提供无与伦比的规模、可靠性,具有智能管理和全栈弹性,以确保不断的使用。

在演讲中,老黄还特别提到2016年赠送OpenAI的DGX-1,那也是史上第一次8块GPU连在一起组成一个超级计算机。

从此之后便开启了训练最大模型所需算力每6个月翻一倍的增长之路。

GPU新核弹GB200

过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU,15兆瓦功率。

如今,同样给90天时间,在Blackwell架构下只需要2000个GPU,以及1/4的能源消耗。

在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。

Blackwell架构除了芯片本身外,还包含多项重大革新:

第二代Transformer引擎

动态为神经网络中的每个神经元启用FP6和FP4精度支持。

第五代NVLink高速互联

为每个GPU 提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信

Ras Engine(可靠性、可用性和可维护性引擎)

基于AI的预防性维护来运行诊断和预测可靠性问题。

Secure AI

先进的加密计算功能,在不影响性能的情况下保护AI模型和客户数据,对于医疗保健和金融服务等隐私敏感行业至关重要。

专用解压缩引擎

支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。

在这些技术支持下,一个GB200 NVL72就最高支持27万亿参数的模型

而GPT-4根据泄露数据,也不过只有1.7万亿参数。

英伟达要做世界AI的入口

老黄官宣ai.nvidia.com页面,要做世界AI的入口。

任何人都可以通过易于使用的用户界面体验各种AI模型和应用。

同时,企业使用这些服务在自己的平台上创建和部署自定义应用,同时保留对其知识产权的完全所有权和控制权。

这上面的应用都由英伟达全新推出的AI推理微服务NIM支持,可对来自英伟达及合作伙伴的数十个AI模型进行优化推理。

此外,英伟达自己的开发套件、软件库和工具包都可以作为NVIDIA CUDA-X微服务访问,用于检索增强生成 (RAG)、护栏、数据处理、HPC 等。

比如通过这些微服务,可以轻松构建基于大模型和向量数据库的ChatPDF产品,甚至智能体Agent应用。

3ce4fb7a-e5a1-11ee-a297-92fbcf53809c.png

NIM微服务定价非常直观,“一个GPU一小时一美元”,或年付打五折,一个GPU一年4500美元。

从此,英伟达NIM和CUDA做为中间枢纽,连接了百万开发者与上亿GPU芯片。

什么概念?

老黄晒出AI界“最强朋友圈”,包括亚马逊、迪士尼、三星等大型企业,都已成为英伟达合作伙伴。

最后总结一下,与往年相比英伟达2024年战略更聚焦AI,而且产品更有针对性。

比如第五代NVLink还特意为MoE架构大模型优化通讯瓶颈。

新的芯片和软件服务,都在不断的强调推理算力,要进一步打开AI应用部署市场。

当然作为算力之王,AI并不是英伟达的全部。

这次大会上,还特别宣布了与苹果在Vision Pro方面的合作,让开发者在工业元宇宙里搞空间计算。

此前推出的新光刻技术cuLitho软件库也有了新进展,被台积电和新思科技采用,把触手伸向更上游的芯片制造商。

当然也少不了生物医疗、工业元宇宙、机器人汽车的新成果。

以及布局下一轮计算变革的前沿领域,英伟达推出云量子计算机模拟微服务,让全球科学家都能充分利用量子计算的力量,将自己的想法变成现。

去年GTC大会上,老黄与OpenAI首席科学家Ilya Sutskever的炉边对谈,仍为人津津乐道。

当时世界还没完全从ChatGPT的震撼中清醒过来,OpenAI是整个行业绝对的主角。

如今Ilya不知踪影,OpenAI的市场统治力也开始松动。在这个节骨眼上,有资格与老黄对谈的人换成了8位——

Transformer八子,开山论文《Attention is all you need》的八位作者。

他们已经悉数离开谷歌,其中一位加入OpenAI,另外7位投身AI创业,有模型层也有应用层,有toB也有toC。

这八位传奇人物既象征着大模型技术真正的起源,又代表着现在百花齐放的AI产业图景。在这样的格局中,OpenAI不过是其中一位玩家。

而就在两天后,老黄将把他们聚齐,在自己的主场。

要论在整个AI界的影响力、号召力,在这一刻,无论是“钢铁侠”马斯克还是“奥特曼”Sam Altman,恐怕都比不过眼前这位“皮衣客”黄仁勋




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3332

    浏览量

    87805
  • GPT
    GPT
    +关注

    关注

    0

    文章

    302

    浏览量

    14872
  • OpenAI
    +关注

    关注

    8

    文章

    763

    浏览量

    5918
  • chiplet
    +关注

    关注

    6

    文章

    380

    浏览量

    12419
  • AI大模型
    +关注

    关注

    0

    文章

    200

    浏览量

    94

原文标题:英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟达发布新一代H200,搭载HBM3e,推理速度是H100两倍!

    电子发烧友网报道(文/李弯弯)日前,英伟达正式宣布,在目前最强AI芯片H100的基础上进行一次大升级,发布新一代H200芯片。H200拥有141GB的内存、4.8TB/秒的带宽,并将与H100相互
    的头像 发表于 11-15 01:15 2392次阅读
    <b class='flag-5'>英伟</b>达发布<b class='flag-5'>新一代</b>H200,搭载HBM3e,推理速度是H100两倍!

    超微电脑借助英伟Blackwell架构,打造顶尖生成式AI系统

    超微电脑Supermicro近日宣布,其全新一代人工智能系统已正式问世,该系统基于NVIDIA的革命性Blackwell架构,展现了前所未有的人工智能性能。该系列新品包括NVIDIA GB200
    的头像 发表于 03-25 10:27 176次阅读

    英伟达发布最强AI加速卡Blackwell GB200

    英伟达在最近的GTC开发者大会上发布了其最新、最强大的AI加速卡——GB200。这款加速卡采用了新一代AI图形处理器架构
    的头像 发表于 03-20 11:38 420次阅读

    英伟达宣布推出新一代GPU Blackwell,SK海力士已量产HBM3E

    英伟达GTC 2024大会上,英伟达CEO黄仁勋宣布推出新一代GPU Blackwell,第一款Blackwell芯片名为GB200,将于
    的头像 发表于 03-20 11:32 462次阅读
    <b class='flag-5'>英伟</b>达宣布推出<b class='flag-5'>新一代</b>GPU <b class='flag-5'>Blackwell</b>,SK海力士已量产HBM3E

    英伟达发布新一代AI芯片B200

    在美国加州圣何塞举办的英伟达GTC生态大会上,英伟达CEO黄仁勋以一场震撼人心的演讲,正式推出了公司的新一代GPU——Blackwell。作为Bla
    的头像 发表于 03-20 10:07 344次阅读

    NVIDIA宣布推出NVIDIA Blackwell平台以赋能计算新时代

    全新 Blackwell GPU、NVLink 和可靠性技术赋能万亿参数规模的 AI 模型
    的头像 发表于 03-20 09:44 214次阅读

    2024年英伟达GTC大会揭晓新一代GPU架构Blackwell

    陆行之表示,相比于其前身“Hopper”100的800亿晶体管,“Blackwell”100拥有的2080亿晶体管数量超过了前者1280亿。此外,尽管两款GPU均采用台积电的4纳米技术加工,但“Blackwell”100通过封装合并而非缩小规模以提高运行速度。
    的头像 发表于 03-20 09:24 270次阅读

    英伟达官宣下一代ai超算 英伟达最新AI芯片成本能耗降低25倍

    BLACKWELL新品的发布标志着人工智能领域的重大突破。在演讲中,黄仁勋详细介绍了GB200 GPU采用的全新Blackwell架构,相较于前代Hopper架构,性能实现了质的飞跃。
    的头像 发表于 03-19 15:42 537次阅读

    英伟达最新一代AI芯片Blackwell GPU,AI算力能力较上代提升30倍!

    黄仁勋说:"我们已经来到了一个临界点,因此需要一种新的计算方式来加速整个行业的发展效率。那么英伟达能够做什么?当然,答案就是——更大的芯片。”接着,英伟新一代图形计算平台Blackwell
    的头像 发表于 03-19 13:39 530次阅读

    今日看点丨英伟达发布最强 AI 加速卡--Blackwell GB200;三星面临罢工 存储市场供需引关注

    的 GTC 开发者大会上,正式发布了最强 AI 加速卡 GB200,并计划今年晚些时候发货。   GB200 采用新一代 AI 图形处理器架构 Bl
    发表于 03-19 11:08 858次阅读

    NVIDIA 推出 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算

    日 ——  NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™。这台
    发表于 03-19 10:56 106次阅读
    NVIDIA 推出 <b class='flag-5'>Blackwell</b> <b class='flag-5'>架构</b> DGX SuperPOD,适用于<b class='flag-5'>万亿</b><b class='flag-5'>参数</b>级的生成式 <b class='flag-5'>AI</b> 超级计算

    英伟新一代AI芯片预计2025年亮相

    近日,服务器制造商戴尔在业界交流活动中透露了英伟达即将发布的新一代人工智能(AI)GPU信息。这款代号为Blackwell的芯片预计将在功耗上达到惊人的1000W,较上一代产品提升了4
    的头像 发表于 03-05 10:26 298次阅读

    NVIDIA将在今年第二季度发布Blackwell架构新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 610次阅读
    NVIDIA将在今年第二季度发布<b class='flag-5'>Blackwell</b><b class='flag-5'>架构</b>的<b class='flag-5'>新一代</b>GPU加速器“B100”

    英伟达市值1.96万亿美元

    英伟达市值1.96万亿美元 英伟达股价一天之内大涨16%;英伟达股价涨到785.38美元,市值1.96万亿美元。这使得
    的头像 发表于 02-24 15:22 539次阅读

    可以将ESP Basic扩展到ESP32吗?

    ,这些库肯定会让他建立很多伟大的项目并学习大量关于 MCU 和 IOT 的问题,你打算将 ESP Basic 扩展到 ESP32 吗 ?
    发表于 05-10 07:55