0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达GH200、特斯拉Dojo超级算力集群,性能爆棚!算力之争加剧!

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-09-14 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)今年8月,在计算机图形学顶会SIGGRAPH 2023现场,英伟达发布了新一代GH200 Grace Hopper平台,该平台专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式 AI 工作负载而构建。

日前,这款GH200 Grace Hopper超级芯片首次亮相MLPerf行业基准测试,在此次测试中,具有更高的内存带宽和更大的内存容量的GH200与H100 GPU相比,性能高出17%。要知道,英伟达的H100 GPU产品性能在业界已经是处于遥遥领先的水平。

相比于H100 GPU,英伟达新一代GH200性能高出17%

英伟达在去年3月推出了第一代Grace Hopper超级芯片平台,首次将CPU和GPU融合在一个平台上。相比较之下,其今年8月推出的新一代产品配备了HBM3e,内存容量和带宽都有显著提高。HBM3e内存是一种新型的高带宽内存技术,可以在更小的空间内提供更高的数据传输速率。

具体来看,HBM3e比当前的HBM3快50%,可提供总计10TB/s的带宽。这使得新平台能够运行比上一版本大3.5倍的模型,同时凭借快3倍的内存带宽提升性能。

黄仁勋此前表示,为了满足对生成式AI不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多GPU 以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。

此外,新平台可以通过 NVIDIA NVLink与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式AI模型。

新平台和芯片的加持,能让大模型训练的成本得到有效降低。据黄仁勋介绍,一台服务器可以同时装载两个GH200超级芯片。而投资800万美元Grace Hopper,相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。

在此次MLPerf行业基准测试,英伟达这款GH200 Grace Hopper超级芯片将其性能之高展示无余。MLPerf是影响力广泛的国际AI性能基准评测,其推理性能评测涵盖使用广泛的六大AI场景,比如计算机视觉、自然语言处理、推荐系统、语音识别等,每个场景采用最主流的AI模型作为测试任务,每一任务又分为数据中心和边缘两类场景。

其由MLCommons由来自学术界、研究实验室和行业的人工智能领导者组成的联盟开发,旨在对硬件、软件和服务的训练和推理性能“构建公平和有用的基准测试”。

据介绍,此次MLPerf Inference v3.1基准测试是继4月发布3.0版本之后的又一次更新,值得注意的是,这次更新包含了两个第一次:引入基于60亿参数大语言模型GPT-J的推理基准测试和改进的推荐模型。

GPT-J是来自EleutherAI的OpenAI GPT-3的开源替代品,现已在MLPerf套件中用作衡量推理性能的基准。与一些更先进的人工智能模型(如1750亿参数的GPT-3)相比,60亿参数的GPT-J属于相当轻量的模型,但它非常适合推理基准的角色。该模型总结了文本块,并可在延迟敏感的在线模式和吞吐量密集型的离线模式下运行。

GH200 Grace Hopper超级芯片在GPT-J工作负载方面取得了优异的成绩,在离线和服务器场景中的每加速器性能都达到了最高水平。

包括特斯拉,众多企业积极构建算力芯片和集群

随着人工智能技术的发展,尤其是近年来生成式AI及大模型应用的快速拓展,市场对算力的需求快速增加。我们知道,无论是AI训练还是推理,都需要大量的算力作为支撑。而目前在大模型的训练和推理方面,英伟达的GPU占据重要位置。

今年以来,英伟达的A100和H100两款芯片订单不断增加,价格也在一直上涨。根据其最新的第二财季报告,其净利润达到61.88亿美元,与去年同期相比增长422%,较上一财季增长203%。据业内人士推测,英伟达H100芯片明年出货量还要至少增加两倍。

在AI迅猛发展的当下,除了英伟达,国内外企业都在积极研发AI芯片,构建自己的算力集群,比如英特尔AMD此前都针对AI大模型推出了相应的大算力芯片产品。国内的不少GPGPU企业及云服务厂商也都在积极布局。

此外,作为全球知名自动驾驶企业,特斯拉也早已开始研发自己的算力芯片,打造自己的超级计算机。最近,特斯拉的股票大涨,摩根士丹利分析师认为,特斯拉超级计算机Dojo释放人工智能提升业绩的巨大潜力,成为其股价走强的主因之一。

在产品形态上,特斯拉的Dojo最终落地单位是一个名为ExaPOD的超级计算集群。它集成了3000颗基于7nm制程工艺的D1芯片,包含120个训练模块,最终能够实现高达 1.1 EFlops(百亿亿次浮点运算)的BF16/CFP8峰值算力;1.3TB高速 SRAM;13TB高带宽 DRAM

在2021年的特斯拉AI Day上,Dojo超算项目负责人Ganesh Venkataramana展示了集成了25个D1芯片的训练模块,他表示特斯拉找到的一个关键答案是用台积电的InFO_SoW整合扇出技术。这是一种芯片先进封装技术,相比于传统的打线封装,InFO技术的基本优势是可以实现多个芯片集成封装,加速信号传递。

特斯拉打算利用Dojo对海量视频数据进行无监督学习,加速Autopilot和完全自动驾驶(FSD)系统的迭代,同时为其人形机器人Optimus提供算力支持。

在2022年9月的AI Day上,特斯拉公布Dojo已建立完整的散热盘上系统。同时也宣布了未来路线图,表示AI团队正在研发新版本的Dojo超算组件。

据今年7月20日的报道,特斯拉Dojo超算已在今年7月开始量产,而总算力达100ExaFLOPs的超算系统将于2024年底量产。

特斯拉之前已经构建基于英伟达GPU的大型超级计算机,而如今其自主研发并推出D1芯片,有助于其减少对英伟达GPU的依赖。

小结

从目前的情况来看,英伟达在AI训练和推理中占据极大的市场份额,在大模型领域更是占据绝对优势,国内外大部分企业都依赖英伟达A100、H100等产品,而如今其GH200在性能上更强,在大模型训练方面又能够帮助企业降低成本,必然会受到一众企业追捧。

当然除了英伟达,国外内还有众多企业也在通过自己的方式,研究并发布适合AI训练和部署芯片,为AI行业的发展构建算力集群。可以看到,在生成式AI、大模型的发展下,作为基础支撑的算力尤为重要。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6404

    浏览量

    131014
  • 英伟达
    +关注

    关注

    23

    文章

    4041

    浏览量

    97688
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为领衔,三剑客入局!十万卡智集群落地,国产芯片强势崛起

    的“驱动燃料”。中移动在现场展示了“国芯国连”AI集群,移动云磐石智交换机、超级点AI
    的头像 发表于 10-14 09:30 1.3w次阅读
    华为领衔,三剑客入局!十万卡智<b class='flag-5'>算</b><b class='flag-5'>集群</b>落地,国产<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片强势崛起

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    AI架构分化,连接器迎“光铜共生”格局

    英伟 GB200 正通过铜缆将 72 块 GPU 压缩进 3 米单柜时,华为CloudMatrix 384 超节点已用 6000 余颗光模块搭建起 12 柜集群,并承载起 1.7-
    的头像 发表于 10-24 18:05 1270次阅读

    “超节点+集群”:华为撞出来的之路

    “超节点+集群”,成为彻底解决AI困局的契机
    的头像 发表于 09-24 10:55 822次阅读
    “超节点+<b class='flag-5'>集群</b>”:华为撞出来的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    不够、交付太慢?捷智裸金属租赁对标物理机性能,让你立马用上高

    2025年国产大模型升级带动租赁需求爆发,高性能服务器“一机难求”。中研普华预测,今年我国
    的头像 发表于 09-12 20:06 1069次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不够、交付太慢?捷智<b class='flag-5'>算</b>裸金属租赁对标物理机<b class='flag-5'>性能</b>,让你立马用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    壁仞科技联合三方打造国产集群落地

    近日,由浙江联通、壁仞科技、中兴通讯、优云科技四方联合打造的国产集群,在浙江乌镇智中心正式点亮。该集群项目的建成,不仅极大地丰富了浙江
    的头像 发表于 08-01 15:26 1153次阅读

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI的三要素,是、算法和数据。而AI
    的头像 发表于 07-23 12:18 986次阅读
    一文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>

    热插拔集群

    热插拔集群指在无需停机的情况下,动态增减计算节点或硬件的基础设施,其核心价值在于实现资源的弹性伸缩和业务连续性。以下从关键技术、应用
    的头像 发表于 06-26 09:20 712次阅读

    智能最具潜力的行业领域

    智能最具潜力的行业领域 一、金融行业 智能风控与精准服务‌:大型银行通过集群(6.27万台服务器)支撑AI模型训练,实现风险预警、智
    的头像 发表于 04-11 08:20 1036次阅读
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潜力的行业领域

    DeepSeek推动AI需求:800G光模块的关键作用

    集群的部署过程中,带宽瓶颈成为制约发挥的关键因素,而光模块的速率跃升成为突破这一瓶颈的核心驱动力。 光模块速率跃升 随着
    发表于 03-25 12:00

    中心的如何衡量?

    作为当下科技发展的重要基础设施,其的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算衡量的详细阐述:一、
    的头像 发表于 01-16 14:03 4235次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?
    的头像 发表于 01-16 10:24 802次阅读

    融合 南京信易发布全新“智能融合平台”

    1月7日,南京信易发布了旗下最新平台“C-MOM智能融合平台V3.0”,并更新了全新的UI视觉与交互系统。 该平台集成了HPC超
    的头像 发表于 01-08 10:56 1274次阅读
    超<b class='flag-5'>算</b>智<b class='flag-5'>算</b>融合 南京信易<b class='flag-5'>达</b>发布全新“智能<b class='flag-5'>算</b><b class='flag-5'>力</b>融合平台”

    星凡星启,全面助力集群建设

    “星算计划”由国星宇航、星凡科技联合之江实验室及行业头部上市公司、科技独角兽共同发起,旨在构建领先的地空一体化人工智能网络。项目规划2024年到2032年,完成3000颗太空
    的头像 发表于 12-10 11:36 2202次阅读
    星凡星启,全面助力<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>建设