0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达发布超强AI加速卡,性能大幅提升,可支持1.8万亿参数模的训练

微云疏影 来源:综合整理 作者:综合整理 2024-03-19 12:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

3月19日消息,NVIDIA宣布成功研发AI加速卡——Blackwell GB200,预计年内开始交付。这是NVIDIA在GTC开发者大会上所公布的最新成果。

GB200创新性的运用了NVIDIA独创的新一代AI图形处理器架构Blackwell。NVIDIA CEO黄仁勋明确指出:“尽管Hopper已然优秀,但我们需要更强的GPU推动发展。”

得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更为强大,尤其适用于AI相关任务。

Blackwell GPU卓越表现使得AI性能达到惊人的20PetaFLOPS。相比之下,基于Hoper架构的H100仅为4PetaFLOPS。NVIDIA强调,这种额外的处理能力将极大地便利人工智能厂商顺利培训复杂且大规模的模型。

Blackwell GPU大大刷新了人们的认知,其庞大身形由台积电4纳米(4NP)工艺制成,包含两个独立制造的裸晶(Die),共有2080亿个晶体管。为了方便捆绑芯片,它采用NVLink 5.0技术。两枚Blackwell芯片在同一封装中,相较以往的GPU而言,整体性能显著提升达2.5倍,若处理FP4八精度浮点运算,则性能甚至可飙升至5倍之多。校园秘

关于GB200,NVIDIA宣称,其合成物包括两个B200 Blackwell GPU以及一个基于Arm的Grace CPU。很多人惊讶地发现 NvTech的首批量产计算机将其性能获得了提升超过30倍,同时降低成本和能耗。根据NVIDIA的数据分析,他们现有的硬件只用2000个Blackwell GPU就够再去完成诸如1.8万亿个参数模型这样的运算任务,且只消耗4兆瓦的电力。在参数为1,750亿的GPT-3 LLM基准测试中,Nvidia的GB200的性能甚至超越了H100 7倍。规律纪律意识

对于致力于拥有庞大需求企业的成品服务,NVIDA推出了包含36个CPU及72个Blackwell GPU的NVL72服务器,并附赠一体式水冷散热解决方案,产能可实现高达720 PetaFLOPS的AI训练性能,或者达到惊人的1,440 PetaFlops。另外,还有144个壁搏立帆、576个GPU以及240TB的内存。单据一份官方报道显示,早先以至于要运行一带有1.8万亿个参数模型的堆栈,原先需要8000个 Hopper GPU,外加15兆瓦的电力。

英伟达透露,同类机型已被亚马逊、谷歌、微软和甲骨文计划纳入他们的云服务产品之中,由于对具体采购量的保密,外界暂无确切消息。但据Nvidia表示,已经接到了Amazon AWS对于采用2万片 Blackwell芯片建成的服务器集群的购买计划。通过Node-to-Node NVLink 5.0,每个机架将被18块GB200芯片和9块交换机装满。而不同于此,英伟达的 Skeeter InfiniBand可连接多达144个节点,Quantum-X800 InfiniBand则最高可支持64个节点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110102
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5266

    浏览量

    136040
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302533
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟5万亿市值背后,是一场赌上未来的烧钱竞赛

    需求下,各大云计算厂商不断加大对AI算力基建的投资,大量购买算力。在10月29日的GTC大会上,英伟CEO黄仁勋表示,公司新一代AI芯片
    的头像 发表于 11-02 11:18 1.1w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>5<b class='flag-5'>万亿</b>市值背后,是一场赌上未来的烧钱竞赛

    选择AMD Alveo V80加速卡的五大理由

    AMD Alveo V80 加速卡专为需要实时加速的企业数据中心和云服务提供商而设计,它结合了可编程逻辑、片上高带宽内存( HBM )、高速网络核心以及网络直连接口,实现实时性能。A
    的头像 发表于 04-10 14:59 274次阅读

    AMD Alveo MA35D媒体加速卡的AMA SDK 1.4.0版本发布

    我们非常高兴地宣布,面向 AMD Alveo MA35D 媒体加速卡的最新 AMA SDK 1.4.0 版本现已发布。该版本旨在为要求严苛的媒体工作负载提供坚如磐石的稳定性和性能提升
    的头像 发表于 03-19 09:36 595次阅读

    Hailo-8算力 + RK3588实测!26TOPS加持,助力AI视觉升级!

    推理、低功耗运行”的硬核实力,为边缘AI视觉部署提供了可靠高效的算力支持。 我们收到Hailo-8 AI算力加速卡实物后,第一时间基于RK3588评估板完成适配测试,解锁算力新可能!
    的头像 发表于 03-02 16:46 387次阅读
    Hailo-8算力<b class='flag-5'>卡</b> + RK3588实测!26TOPS加持,助力<b class='flag-5'>AI</b>视觉升级!

    FPGA硬件加速卡设计原理图:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高, XCKU115, 光纤采集, 信号计算板, 硬件加速卡
    的头像 发表于 02-12 09:52 529次阅读
    FPGA硬件<b class='flag-5'>加速卡</b>设计原理图:1-基于Xilinx XCKU115的半高PCIe x8 硬件<b class='flag-5'>加速卡</b> PCIe半高 XCKU115-3-FLVF1924-E芯片

    推理<2ms!Ultralytics最新YOLO26+树莓派+国产AI加速卡实现 500 FPS 端侧 AI 性能巅峰!

    关键词:YOLO26、树莓派、国产AI加速卡、M5Stack、边缘AI速度快、功耗低、纯国产,树莓派终于有了真正实用的AI加速方案近年来,随
    的头像 发表于 01-30 16:11 5812次阅读
    推理<2ms!Ultralytics最新YOLO26+树莓派+国产<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>实现 500 FPS 端侧 <b class='flag-5'>AI</b> <b class='flag-5'>性能</b>巅峰!

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN标准嵌入式开发板

    LLM-8850KitLLM-8850Kit是一款面向边缘AI与嵌入式计算场景的高性能AI加速卡套件,由LLM-8850CardAI加速卡
    的头像 发表于 01-30 16:11 1356次阅读
    新品 | LLM-8850 Kit,高<b class='flag-5'>性能</b><b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>套件 DinMeter v1.1,1/32DIN标准嵌入式开发板

    昆仑芯R200 AI加速卡技术规格解析

    昆仑芯R200加速卡基于7nm XPU-R架构,在150W功耗下提供256 TOPS INT8算力,侧重高性能推理。配备最高32GB GDDR6内存(512GB/s带宽)及108路视频解码能力,支持
    的头像 发表于 12-14 13:12 1871次阅读
    昆仑芯R200 <b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>技术规格解析

    迈向云端算力巅峰:昆仑芯K200 AI加速卡全面解读

    昆仑芯K200作为云端AI加速卡,在K100架构基础上全面升级。其INT8算力256 TOPS,配备16GB HBM内存与512GB/s带宽,专为千亿参数大模型
    的头像 发表于 12-14 11:17 2267次阅读
    迈向云端算力巅峰:昆仑芯K200 <b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>全面解读

    算力密度翻倍!江原D20加速卡发布,一双芯重构AI推理标杆

    的关键技术瓶颈。   在此背景下,江原科技推出采用自研AI芯片的AI加速卡江原D10,并在今年5月实现量产交付。在大算力AI芯片全流程国产化产业链实现首次突破后,11月11日,江原科技
    的头像 发表于 11-14 08:21 1.1w次阅读
    算力密度翻倍!江原D20<b class='flag-5'>加速卡</b><b class='flag-5'>发布</b>,一<b class='flag-5'>卡</b>双芯重构<b class='flag-5'>AI</b>推理标杆

    虚拟电厂加速卡不是噱头!万点规模VPP的性能分水岭

    。   此时仅靠边缘MPU/CPU的通用算力,可能无法及时处理数据清洗、异常检测、指令下发校验等任务,而加速卡(如 GPU、FPGA 加速卡)的并行计算能力快速消化数据洪流,避免“小包风暴”导致的系统
    的头像 发表于 10-10 08:59 2808次阅读

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI
    的头像 发表于 06-05 13:39 1871次阅读
    智算<b class='flag-5'>加速卡</b>是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉GPU和TPU!

    410 基于 XCVU9P+ C6678 的 100G 光纤的加速卡

    基于 XCVU9P+ C6678 的 100G 光纤的加速卡
    的头像 发表于 05-08 08:32 859次阅读
    410 基于 XCVU9P+ C6678 的 100G 光纤的<b class='flag-5'>加速卡</b>

    边缘AI运算革新 DeepX DX-M1 AI加速卡结合Rockchip RK3588多路物体检测解决方案

    DeepX 推出了一款革命性的产品 DeepX DX-M1 AI 推理加速卡 采用 PCIe Gen3 M.2 M-Key 接口,具备高达 25 TOPS 的卓越运算性能,以及高准确度、低功耗、低温
    的头像 发表于 05-06 14:15 1249次阅读
    边缘<b class='flag-5'>AI</b>运算革新 DeepX DX-M1 <b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>结合Rockchip RK3588多路物体检测解决方案

    寒武纪基于思元370芯片的MLU370-X8 智能加速卡产品手册详解

    MLU370-X8智能加速卡是全面升级的数据中心训推一体AI加速卡,基于寒武纪全新一代思元370芯片,接口为PCIe 4.0 X16,是全高全长双宽(FHFL-Dual-Slot)的标准PCIe
    的头像 发表于 04-24 17:57 6059次阅读
    寒武纪基于思元370芯片的MLU370-X8 智能<b class='flag-5'>加速卡</b>产品手册详解