0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达发布新一代H200,搭载HBM3e,推理速度是H100两倍!

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-11-15 01:15 次阅读

电子发烧友网报道(文/李弯弯)日前,英伟达正式宣布,在目前最强AI芯片H100的基础上进行一次大升级,发布新一代H200芯片。H200拥有141GB的内存、4.8TB/秒的带宽,并将与H100相互兼容,在推理速度上几乎达到H100的两倍。H200预计将于明年二季度开始交付。此外,英伟达还透露,下一代Blackwell B100 GPU也将在2024年推出。

wKgZomVTSeqAc4mwAABD6e_8I4c101.jpg
英伟达新发布的H200性能大幅提升(来源:英伟达官网)


首款搭载HBM3e的GPU,推理速度几乎是H100的两倍

与A100和H100相比,H200最大的变化就是内存。搭载世界上最快的内存HBM3e技术的H200在性能上得到了直接提升,141GB的内存几乎是A100和H100最高80GB内存的2倍,4.8TB每秒的带宽达到A100的2.4倍,显著高于H100 3.35TB每秒的带宽。

今年早些时候,就有消息称,包括英伟达在内,全球多个科技巨头都在竞购SK海力士第五代高带宽内存HBM3e。 HBM是由AMD和SK海力士发起的基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求的应用场合。如今HBM已经发展出HBM2、HBM2e以及HBM3,HBM3e是HBM3的新一代产品。英伟达、AMD等企业的高端AI芯片大多搭载HBM。

电子发烧友此前报道过,英伟达历代主流训练芯片基本都配置HBM,其2016年发布的首个采用帕斯卡架构的显卡TeslaP100已搭载了HBM2,随后TeslaV100也采用了HBM2;2017年初,英伟达发布的Quadro系列专业卡中的旗舰GP100也采用了HBM2;2021年推出的TeslaA100计算卡也搭载了HBM2E,2022年推出了面向大陆地区的A800,同样也配置HBM2E;2022年推出了市面上最强的面向AI服务器的GPU卡H100,采用的HBM3。

AMD今年6月推出的号称是最强的AI芯片MI300X,就是搭载由SK海力士及三星电子供应的HBM。AMD称,MI300X提供的HBM密度最高是英伟达AI芯片H100的2.4倍,其HBM带宽最高是H100的1.6倍。这意味着,AMD的芯片可以运行比英伟达芯片更大的模型。

如今英伟达新发布的H200搭载HBM3e,可想而知在性能上将会更上一层。H200配备141GB的HBM3e内存,运行速率约为6.25 Gbps,六个HBM3e堆栈为每个GPU带来4.8 TB/s的总带宽。原有的H100配备80GB的HBM3,对应的总带宽为3.35 TB/s,这是一个巨大的进步。相比于H100的SXM版本,H200的SXM版本将内存容量和总带宽分别提高了76%和43%。

英伟达表示,基于与H100相同的Hopper架构,H200将具有H100的一切功能,例如可以用来加速基于Transformer架构搭建的深度学习模型的Transformer Engine功能。

根据其官网信息,H200在大模型Llama 2、GPT-3.5的输出速度上分别是H100的1.9倍和1.6倍,在高性能计算HPC方面的速度更是达到了双核x86 CPU的110倍。

TF32 Tensor Core(张量核心)中,H200可达到989万亿次浮点运算;INT8张量核心下提供3,958 TFLOPS(每秒3958万亿次的浮点运算)。

不仅如此,基于H200芯片构建的HGX H200加速服务器平台,拥有 NVLink 和 NVSwitch的高速互连支持。8个HGX H200则提供超过32 petaflops(每秒1000万亿次的浮点运算)的FP8深度学习计算和 1.1TB 聚合高带宽内存,可为科学研究和 AI 等应用的工作负载提供更高的性能支持,包括超1750亿参数的大模型训练和推理。

英伟达副总裁Ian Buck表示,为了训练生成式AI和高性能计算应用,必须使用高性能GPU。有了H200,行业领先的AI超级计算平台可以更快地解决一些世界上最重要的挑战。

目前,英伟达的全球合作伙伴服务器制造商生态系统包括华擎 Rack、华硕、戴尔科技、Eviden、技嘉、慧与、英格拉科技、联想、QCT、Supermicro、纬创资通和纬颖科技等,可以直接使用H200更新其现有系统。除了英伟达自己投资的CoreWeave、Lambda和 Vultr之外,亚马逊网络服务、谷歌云、微软Azure 和甲骨文云等云服务提供商将从明年开始首批部署H200。

如果没有获得出口许可,新H200不会销往中国

这款H200能否对华出口也是大家关心的问题。对此,英伟达表示,如果没有出口许可,新的H200将不会销往中国。去年9月,英伟达高端GPU对中国出口就受到限制,当时英伟达表示,美国通过公司向中国出口A100和H100芯片将需要新的许可证要求,同时DGX或任何其他包含A100或H100芯片的产品,以及未来性能高于A100的芯片都将受到新规管制。

根据美国商务部的法规,其主要限制的是算力和带宽,算力上线是4800 TOPS,带宽上线是600 GB/s。为了应对这个问题,英伟达后来向中国企业提供了替代版本A800和H800。A800的带宽为400GB/s,低于A100的600GB/s,H800据透露约为H100的一半。这意味着A800、H800在进行AI模型训练的时候,需要耗费更长的时间。

然而美国政府认为,H800在某些情况下算力仍然不亚于H100。为了进一步加强对AI芯片的出口管制,美国计划用多项新的标准来替换掉之前针对“带宽参数”。今年10月,美国商务部工业与安全局(BIS)发布更新针对AI芯片的出口管制规定,根据新规定,美国商务部计划引入一项被称为“性能密度”的参数,来防止企业寻找到变通的方案,修订后的出口管制措施将禁止美国企业向中国出售运行速度达到300teraflops(即每秒可计算 3亿次运算)及以上的数据中心芯片。根据这样的规定,在没有获得许可的情况下,英伟达新发布的H200必然是没有办法向中国企业出售。


事实上,在美国政府今年10月发布的新规下,英伟达不少产品都在限制范围内,包括但并不限于A100、A800、H100、H800、L40、L40 以及RTX 4090。任何集成了一个或多个以上芯片的系统,包括但不限于英伟达DGX、HGX系统,也在新规涵盖范围之内。

针对此情况,有消息称,本月初英伟达已经向经销商公布“中国特供版”HGX H20、L20 PCle、L2 PCle产品信息,分别针对训练、推理和边缘场景,最快将于11月16日公布,量产时间为2023年12月至2024年1月。其中,HGX H20在带宽、计算速度等方面均有所限制,理论综合算力要比英伟达H100降80%左右。

此外,据英特尔供应链透露,英特尔也已经针对最新发布的Gaudi2推出降规版出货,预计将不受新禁令影响。不过无论是英伟达,还是英特尔针对中国市场推出的特供版,可想而知性能必然是会大打折扣的,而且从美国政府的举措来看,特供版是否能够长久供应也是未知数。

总结

可以看到,英伟达此次发布的H100,是全球首款搭载HBM3e的GPU,拥有141GB的内存、4.8TB/秒的带宽,推理速度几乎达到H100的两倍。可想而知,有了H200,当前备受关注的AI大模型的训练和部署应用将会得到更快速地发展。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    21

    文章

    3012

    浏览量

    86964
  • HBM3
    +关注

    关注

    0

    文章

    51

    浏览量

    30
收藏 人收藏

    评论

    相关推荐

    英伟达斥资预购HBM3内存,为H200及超级芯片储备产能

    据最新传闻,英伟达正在筹划发布两款搭载HBM3E内存的新品——包括141GB HBM3EH200
    的头像 发表于 01-02 09:27 142次阅读

    英伟达大量订购HBM3E内存,抢占市场先机

    英伟达(NVIDIA)近日宣布,已向SK海力士、美光等公司订购大量HBM3E内存,为其AI领域的下一代产品做准备。也预示着内存市场将新一轮竞争。
    的头像 发表于 12-29 16:32 488次阅读

    英伟达将于Q1完成HBM3e验证 2026年HBM4将推出

    由于hbm芯片的验证过程复杂,预计需要2个季度左右的时间,因此业界预测,最快将于2023年末得到部分企业对hbm3e的验证结果。但是,验证工作可能会在2024年第一季度完成。机构表示,各原工厂的hbm3e验证结果将最终决定
    的头像 发表于 11-29 14:13 303次阅读
    <b class='flag-5'>英伟</b>达将于Q1完成<b class='flag-5'>HBM3e</b>验证 2026年<b class='flag-5'>HBM</b>4将推出

    预计英伟达将于Q1完成HBM3e验证 2026年HBM4将推出

    由于hbm芯片的验证过程复杂,预计需要2个季度左右的时间,因此业界预测,最快将于2023年末得到部分企业对hbm3e的验证结果。但是,验证工作可能会在2024年第一季度完成。机构表示,各原工厂的hbm3e验证结果将最终决定
    的头像 发表于 11-27 15:03 401次阅读
    预计<b class='flag-5'>英伟</b>达将于Q1完成<b class='flag-5'>HBM3e</b>验证 2026年<b class='flag-5'>HBM</b>4将推出

    英伟发布最新AI芯片H200:性能提升2倍,成本下降50%

    很明显,如果能在相同的功率范围之内实现 2 倍的性能提升,就意味着实际能耗和总体拥有成本降低了 50%。所以从理论上讲,英伟达似乎可以让 H200 GPU 的价格与 H100 持平。
    的头像 发表于 11-22 17:14 539次阅读
    <b class='flag-5'>英伟</b>达<b class='flag-5'>发布</b>最新AI芯片<b class='flag-5'>H200</b>:性能提升2倍,成本下降50%

    1.1TB HBM3e内存!NVIDIA奉上全球第一GPU:可惜无缘中国

    NVIDIA H200的一大特点就是首发新一代HBM3e高带宽内存(疑似来自SK海力士),单颗容量就多达141GB(原始容量144GB但为提高良率屏蔽了一点点),同时带宽多达4.8TB/s。
    的头像 发表于 11-15 16:28 285次阅读
    1.1TB <b class='flag-5'>HBM3e</b>内存!NVIDIA奉上全球第一GPU:可惜无缘中国

    英伟达推出用于人工智能工作的顶级芯片HGX H200

    。 在备受瞩目的人工智能领域,英伟达提到,H200将带来进一步的性能飞跃。在Llama 2(700亿参数的LLM)上的推理速度H100快了
    的头像 发表于 11-15 14:34 764次阅读

    英伟新一代人工智能(AI)芯片HGX H200

    基于英伟达的“Hopper”架构的H200也是该公司第一款使用HBM3e内存的芯片,这种内存速度更快,容量更大,因此更适合大语言模型。英伟
    发表于 11-15 11:17 259次阅读

    英伟达推出新款AI芯片H200 性能飙升90%但是估计依然被出口管制

    大,也是H100的升级版,号称性能飙升90%;全球最强 AI 芯片。 据英伟达的消息,H200拥有141GB的内存、4.8TB/秒的带宽,并将与H100相互兼容,
    的头像 发表于 11-14 16:45 811次阅读
    <b class='flag-5'>英伟</b>达推出新款AI芯片<b class='flag-5'>H200</b> 性能飙升90%但是估计依然被出口管制

    世界最强AI芯H200发布英伟达:性能提升90%

    在备受关注的人工智能领域,英伟达表示,h200将进一步提高性能。llama 2(700亿个llm)的推理速度h100
    的头像 发表于 11-14 10:49 480次阅读

    追赶SK海力士,三星、美光抢进HBM3E

    电子发烧友网报道(文/黄晶晶)新型存储HBM随着AI训练需求的攀升显示出越来越重要的地位。从2013年SK海力士推出第一代HBM来看,HBM历经HBM1、
    的头像 发表于 10-25 18:25 1892次阅读
    追赶SK海力士,三星、美光抢进<b class='flag-5'>HBM3E</b>

    AI需求大增!传英伟达 B100 提前至明年Q2发布

    市场有关负责人表示,h100英伟达gpu中规格最高的技术,但b100的影响力比h100更大,今后将采用3至4纳米工程和芯片设计。随着sk海力士决定独家向
    的头像 发表于 10-17 09:23 323次阅读

    HBM3E明年商业出货,兼具高速和低成本优点

    )、HBM3(第四代)、HBM3E(第五代)的顺序开发。而HBM3EHBM3 的扩展(Extended)版本。   美光科技日前宣称新款HBM
    的头像 发表于 10-10 10:25 341次阅读

    英伟达a100h100哪个强?英伟达A100H100的区别

    基于Ampere架构的GPU计算加速器,专为高性能计算、人工智能和机器学习等领域而设计。它拥有高达6912个CUDA核心(在32GB版本中),是目前最强大的数据中心GPU之一。A100支持更快的训练速度和更大的模型容量,适用于需要进行大规模并行计算的应用程序。
    的头像 发表于 08-09 17:31 2.8w次阅读

    英伟达h800和h100的区别

    不足,反而更贵。 NVIDIA H100 的中国版本就是:NVIDIA H800。        H800的的带宽仅为H100(900 GB/s)的约一半。 NVIDIA H100 搭载
    的头像 发表于 08-08 16:06 2.3w次阅读
    <b class='flag-5'>英伟</b>达h800和<b class='flag-5'>h100</b>的区别