0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达的反击:挟H100以令诸侯

Linelayout 来源:IC大家谈 2023-10-18 15:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论骚操作,硅谷恐怕没有CEO能比得上黄仁勋

去年,黄仁勋向微软、谷歌和亚马逊这些云计算厂商提出了一个计划:这些厂商都有很多搭载了英伟达GPU的服务器,由英伟达租用这些服务器,然后让英伟达的工程师对其进行“优化”,再以英伟达的名义租给普通的AI企业,从中赚取差价。

说简单点,以前微软会直接把云服务卖给中小公司,现在由英伟达进来当中间商。当然按照英伟达官方的说法,此举是为了“向云计算厂商展示在数据中心配置GPU的正确方法”[1]。

服务器还是那个服务器,但经过英伟达“优化”后,客户就从微软优化到英伟达了。但就是这样一个匪夷所思的提议,除了亚马逊之外,各大云计算厂商居然都同意了。

2023年3月,英伟达正式上线云计算服务DGX Cloud。事实证明,经过英伟达工程师的优化后,DGX Cloud在训练大模型时表现得的确更好;在此基础上,英伟达还破例允许短期租赁。仅仅半年时间,英伟达就拿下了软件公司ServiceNow等大客户。

科技公司愿意配合英伟达骚操作的真实原因,可能还是因为英伟达手中握有大模型时代最稀缺的资源——H100。

当下,几乎所有的企业都没有足够的算力。连OpenAI创始人阿尔特曼,都曾在一次听证会上无奈地表示:“如果人们减少使用ChatGPT,我们会非常高兴,因为我们的GPU非常短缺[2]。”

买了多少H100,甚至可以成为决定AI成就的关键因素。这也让英伟达有了“挟H100以令诸侯”的底气。

计算机的“稀土”

通常来说,科技企业会通过购买云计算厂商的服务,来满足算力需求。从2023年3月开始,微软Azure、亚马逊AWS等云计算厂商也先后上架了HGX H100的租赁服务,HGX H100是由4个或8个H100组成的服务器。

然而,当下供需严重失衡,云计算厂商这点H100存货已经远远满足不了市场的胃口。2023年H1的财报中,微软专门更新了一条风险因素:如果无法获得足够多的AI芯片,云计算业务可能会中断。

许多初创公司需要排队等待3-12个月,一旦友商抢在自己前面,那可能就是几十上百亿估值的损失。

无数“H100穷人”们,只能被迫发挥主观能动性,看谁的路子更野。

面对《纽约时报》的采访,一位创业者将H100比作“稀土”。早些时候,他跑去请求美国国家科学基金会投资自己,仅仅因为基金会底下一个项目刚好有少数空置的H100。

在硅谷,AI创业者打招呼的方式,都变成了“我认识一个有H100的家伙”——不知道的还以为在买卖毒品[4]。

GPU Utils曾测算过H100抢购潮背后具体的需求数据:

对需要自己训练大模型、追求大力出奇迹的企业来说,没有个上万块H100都不好意思出门。由前DeepMind联合创始人苏莱曼创办的InflectionAI,成立方才一年,已买了2.2万个H100;至于Meta这样财大气粗的公司,很可能会购买10万个甚至更多。

对微软Azure等云计算厂商来说,每一家也都需要至少3万个H100。而其余几家私有云,还将消耗总计约10万个H100。

测算后发现,仅美国大型科技公司和少数几家明星初创公司,需求量已达到约43万个[5]。如果再算上其他初创企业、研究机构、大学,乃至富裕国家的追逐、再加之黄牛、黑市等不可控因素,实际需求很可能远大于这个数字。然而据英国《金融时报》爆料,今年H100的出货量大约是55万个[6]。

H100之所以令人如饥似渴,其中一个核心原因在于其近乎垄断的市场地位。

面对大模型训练对极致效率的需求,H100在大多数情况下都是最优解。

MPT-30B是第一个使用H100训练的开源LLM(大语言模型),实际训练只耗费了11.6天;相比之下,使用前一代的A100训练则需要28.3天[7]。如若换成参数规模更庞大的AI,例如1800B的GPT-4,效率差异会更加明显。跑马圈地的时代,时间就是一切。

除此之外,H100在模型推理上的效率也远高于A100。尽管H100的首发价约为3.3万美元,如今二手市场价格更上涨至4-5万美元;但若将H100和A100的性能分别除以各自的价格,能发现H100的性价比实际也高于A100。

6cee980e-6d00-11ee-939d-92fbcf53809c.png

6cf36992-6d00-11ee-939d-92fbcf53809c.png

MPT-30B的具体训练、推理情况

黄仁勋说,“Buy more GPUs , the more money you save(买得多,省得多)”,似乎不无道理。

也正因为如此,即便美国限制了H/A100的对华出口,国内科技公司仍在抢购阉割版的H/A800——尽管阉割版的芯片间数据传输速度只有前者一半,意味着需要在大模型训练上花费更多时间。

除需求量庞大之外,造成H100短缺的另一个原因是产能的严重不足。

H100芯片需要使用SK海力士的HBM内存,以及台积电的CoWoS封装——两者都因过于昂贵,此前并没能大规模市场化,预备产能并不多。由于产能爬坡尚需时间,有分析师预测H100的短缺至少会持续至明年一季度,也有人认为要到明年年底才有可能有所缓解[9]。

6d08e13c-6d00-11ee-939d-92fbcf53809c.png

H100内部结构

H100的空前盛况,让黄仁勋在短短一年时间内体验了一回坐过山车的感觉。

去年二季度,消费市场萎靡不振加上挖矿企业扎堆倒闭,英伟达交出了一份不及格的财报,“GPU滞销,帮帮我们”的表情包一度遍地都是。一年之后,黄仁勋成功向资本市场展示了什么叫“反向暴雷”,同比营收暴涨854%,大幅超出了最乐观分析师的预测。

巅峰换来了漫天的吹捧,但黄仁勋心里清楚,英伟达的头上一直悬着一把剑。

不可避免的战争

今年8月,传奇工程师吉姆·凯勒对媒体评论道,“我不认为GPU是运行AI的全部,世界憎恶垄断[11]。”

此番发言虽有给自家AI芯片打广告之嫌,却也是业界的共识。

事实上,那些购买了最多H100的大型科技公司,基本都不太“安分”:微软、谷歌、Meta,或多或少都尝试过自研AI芯片。

这让英伟达面临着一个异常尴尬的处境:在AI芯片领域,自己与“大客户”之间,未来几乎必有一战。

大型科技公司们选择自研AI芯片,最初都源于一个非常质朴的需求——省钱,其中最典型的便是谷歌。

早在2014年,谷歌已启动了自研芯片计划。彼时,OpenAI的首席科学家伊利亚还在谷歌工作,打造出了一套颇具颠覆性的AI模型。该模型脱胎于伊利亚的“大力出奇迹”理念,只需要灌入足够多且正确的数据,它便能更好地完成翻译、语音识别等工作。然而待到实际应用时,谷歌却犯了难:

如果将AI服务安装至10亿多台安卓手机中,哪怕每个人每天只使用3分钟,谷歌都需要2倍于当前数据中心的算力。当时谷歌已经建了15个数据中心,每个造价上亿美金,“超级加倍”显然不切实际。

最终,谷歌自研出了性能更强、功耗更低的TPU,大大提升了单个数据中心的算力供应,以一种更经济实惠的方式解决了算力难题。

TPU的出现,令黄仁勋如坐针毡,开始了“爆改GPU”,很快在性能上实现了反超,其最新成果便是H100。不过,H100的售价实在过于昂贵。

如果按重量售卖H100,那么其每盎司售价将达到黄金的一半;即便对地球上最赚钱的科技公司而言,这笔“英伟达税”也堪称天文数字。

然而,H100的实际制造成本并不高。据金融咨询公司Raymond James测算,H100的成本约为3320美金,仅占首发价的1/10,黄仁勋含泪赚10倍[12]。

自研芯片的经济收益毋庸置疑,但除此之外其实还有另一个好处:垂直整合打造差异化。

堆叠算力不是简单的往车里加汽油,需要考虑软件适配性、自身业务需求等一系列问题。例如AI所使用的深度学习框架有多个派别,谷歌是TensorFlow,Meta用的PyTorch,而百度则有PaddlePaddle,硬件需要根据不同框架做适配。

专门定制的AI芯片,可以更加紧贴自身AI业务的需求。所以Meta在今年又重启了自研芯片计划,针对PyTorch框架定制了全新的MTIA芯片。

对大公司来说,考量芯片的核心其实不是算力,而是“单位美元提供的算力”,也就是成本。谷歌的TPU和特斯拉的Dojo都证明了,定制服务的成本是可以接受的。

眼下,“反抗的星火”已经点燃。据外媒爆料,大型科技公司的云计算团队,已开始频繁劝说客户改用其自研芯片,而不是英伟达的GPU。英伟达固然是目前为止绝对的赢家,但没人知道平衡什么时候会被打破。

不过,面对这场不可避免的战争,英伟达也留了后手。

挟H100以令诸侯

英伟达打出的第一张牌,叫CoreWeave。

CoreWeave成立于2017年,最初是一家以太坊挖矿公司,后来转型做起了云计算业务。据CoreWeave创始人透露,2022年公司收入为3000万美金,仅有微软Azure的1/1133,在硅谷几乎没什么存在感。

然而到了2023年,CoreWeave突然一夜成名,接连签下Inflection AI和Stability AI两个大客户,年营收预计将达到5亿美金,一年翻16倍。除此之外,微软甚至决定在未来几年花费数十亿美金购买其服务;其中仅2024年的订单,已有20亿美金。

改变CoreWeave命运的贵人,正是英伟达。

今年4月,英伟达参与了对CoreWeave的投资;但比起美元,英伟达还给了它一项更稀有的资源——H100。CoreWeave是全球第一家上线HGX H100租赁服务的云计算企业,比微软Azure还要早一个月。

这番安排,其实是黄仁勋的有意为之。

H100近乎垄断的市场地位加之严重短缺的现状,让英伟达手中多了一层权力:他可以自由决定优先供货的对象。

相比自己跟Big Tech们同床异梦的塑料友谊,CoreWeave和英伟达是实打实的革命战友。因此,英伟达削减了对大型科技公司的H100供应,转而将这部分产能交给了CoreWeave等“自家兄弟”——它们曾确保不会自研芯片。

从结果来看,这一战略不仅避免了囤积现象的出现,也确实抢到了大型科技公司的蛋糕:

例如前文提到的Stability AI,在2022年底时一直将亚马逊AWS视作唯一云服务商;然而到了今年3月,困于算力不足的Stability AI,悄悄叩开了CoreWeave的大门。

事实上,英伟达手中并非仅有CoreWeave一张牌。这位手握H100的投资人,还投资了同为云计算公司的Lambda Labs,以及三家从事大模型、应用开发的明星初创企业。

在亩产十万大模型的当下,H100是比美元还珍贵的硬通货,也为英伟达创造了一个宝贵的窗口期:尽可能让更多公司用上H100,趁早建立起生态,“把朋友搞得多多的”。

那么这个窗口期能持续多久呢?

尾声

英伟达的一系列“骚操作”已经引来了美国反垄断机构的注意,同时,全球疯抢H100的现状,很可能不会长期持续下去。

正如前文所述,H100产能受限是因为台积电和SK海力士的预备产能不足;随着新产线陆续落地,短缺状况会逐渐得到缓解。

除此之外,旺盛的需求也未必会延续下去。

事实上,越来越多的科技公司和研究机构都选择将大模型开源。随着市场上的优质开源模型越来越多,初创企业和研究机构可以不必再自己动手训练,转而直接下载开源模型,根据自身业务需求进行开发或者推理。

Meta发布开源大模型Llama后,斯坦福、卡内基梅隆等多所高校的研究人员就曾联合起来,以此为基础打造了开源大模型Vicuna,很快便突破了200万次下载。

6d435de4-6d00-11ee-939d-92fbcf53809c.png

Vicuna

在肉眼可见的未来,算力的主要使用场景很可能会从训练转向推理——届时,H100便不再是独孤求败了。因为不同于追求极致效率的训练场景,AI推理其实更看重性价比。

另一方面,以大模型为代表的生成式AI如今面临的问题在于:面对高昂的算力成本,除了英伟达,大家都还没赚到钱。

2006年CUDA平台推出时,英伟达以超脱于行业的前瞻性推动了AI的飞速进步。而如今,英伟达气势如虹的业绩似乎也是一种拷问:它是不是已经从AI的推动者,变成了AI前进的阻力?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143037
  • 英伟达
    +关注

    关注

    23

    文章

    4039

    浏览量

    97636
  • AI芯片
    +关注

    关注

    17

    文章

    2062

    浏览量

    36558

原文标题:英伟达的反击:挟H100以令诸侯

文章出处:【微信号:IC大家谈,微信公众号:IC大家谈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟达官宣H20恢复中国供应,新款GPU震撼来袭

    电子发烧友原创 章鹰 今天,命运多舛的英伟H20芯片迎来了新转机。4月,美国政府决定禁止英伟向中国市场销售
    的头像 发表于 07-16 02:01 9160次阅读
    <b class='flag-5'>英伟</b>达官宣<b class='flag-5'>H</b>20恢复中国供应,新款GPU震撼来袭

    英伟 Q3 狂揽 308 亿

    厂商季度合计 500 亿美元资本支出中,约 30% 流向了英伟。 新一代 Blackwell 芯片已全面投产,Q3 交付 1.3 万个 GPU 样品,H200 GPU 理论性能较 H100
    的头像 发表于 11-20 18:11 1055次阅读

    英伟 H100 GPU 掉卡?做好这五点,让算力稳如泰山!

    H100服务器停工一天损失的算力成本可能比维修费还高。今天,我们给大家总结一套“防掉卡秘籍”,从日常管理到环境把控,手把手教你把掉卡风险压到最低。一、供电是“生命线”,这3点必须盯紧H100满载功耗
    的头像 发表于 09-05 11:03 708次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b> <b class='flag-5'>H100</b> GPU 掉卡?做好这五点,让算力稳如泰山!

    英伟被传暂停生产H20芯片 外交部回应

    据外媒《the Information》在当地时间的8月21日下午爆料称,英伟可能已经暂停生产H20芯片。据称,英伟已正式下达指示给到供
    的头像 发表于 08-22 15:58 2561次阅读

    搞定英伟 H100 ECC 报错:从原理到维修,一步到位解烦忧

    最近,捷智算GPU维修室收到了不少H100服务器需要维修,故障问题集中为ECC报错。为了帮大家更好地认识和了解情况,下面就详细分享一下ECC报错系统化排查方法和维修流程。一、ECC报错
    的头像 发表于 08-14 18:05 1368次阅读
    搞定<b class='flag-5'>英伟</b><b class='flag-5'>达</b> <b class='flag-5'>H100</b> ECC 报错:从原理到维修,一步到位解烦忧

    H20中国区卖爆!英伟紧急向台积电加订30万块

    ,性能上相当于英伟另一款主流GPU芯片H100的20%左右。   尽管如此,在美国解禁对H20芯片的出口后,需求仍然超出了想象。据路透社报道,中国市场的需求比预想中药强劲得多。因此
    的头像 发表于 07-30 08:08 2996次阅读

    英伟获美批准恢复H20在华销售,同步推出全新兼容GPU

    7月15日上午,央广财经记者从英伟方面确认,英伟已经获得美国批准,将恢复 H20 在中国的销售,并推出面向中国市场的全新且完全兼容的 G
    的头像 发表于 07-16 17:49 663次阅读

    中方回应英伟将对华销售H20芯片 反对将科技和经贸问题政治化

    对于英伟将对华销售H20芯片我们怎么回应的?来看看外交部发言人的表述。 在15日的例行记者会上,有记者就英伟黄仁勋表示
    的头像 发表于 07-15 16:22 2036次阅读

    GPU 维修干货 | 英伟 GPU H100 常见故障有哪些?

    ABSTRACT摘要本文主要介绍英伟H100常见的故障类型和问题。JAEALOT2025年5月5日今年,国家政府报告提出要持续推进“人工智能+”行动,大力发展人工智能行业,市场上对算力的需求持续
    的头像 发表于 05-05 09:03 2445次阅读
    GPU 维修干货 | <b class='flag-5'>英伟</b><b class='flag-5'>达</b> GPU <b class='flag-5'>H100</b> 常见故障有哪些?

    美国限制英伟向华出售H20芯片

    出口H20芯片,以及任何其他性能达到H20内存带宽、互连带宽或其组合的芯片,都必须获得出口许可。 公告披露,美国政府称,这旨在解决相关产品可能被用于或被转用于中国超级计算机的风险。4月14日,美国政府通知英伟
    的头像 发表于 04-16 17:28 849次阅读

    特朗普要叫停英伟对华特供版 英伟H20出口限制 或损失55亿美元

    是“中国特供版”人工智能芯片;是英伟公司为符合美国出口规定专门为中国市场开发的定制芯片,H20芯片在训练AI模型方面不如英伟其他芯片速度
    的头像 发表于 04-16 16:59 1884次阅读

    英伟市值一夜蒸发近2万亿 英伟股价下跌超8%

    在美东时间周一,美股三大指数集体收跌,截至收盘,英伟股价下跌超8%,英伟市值一夜蒸发2650亿美元(换算下来约合人民币19345亿元);目前英伟
    的头像 发表于 03-04 10:19 987次阅读

    英伟A100H100比较

    英伟A100H100都是针对高性能计算和人工智能任务设计的GPU,但在性能和特性上存在显著差异。以下是对这两款GPU的比较: 1. 架构与核心规格: A
    的头像 发表于 02-10 17:05 1.1w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>A<b class='flag-5'>100</b>和<b class='flag-5'>H100</b>比较

    英伟发布DeepSeek R1于NIM平台

    网站上发布。 据悉,DeepSeek R1 NIM微服务是英伟在人工智能领域的一项重要创新,旨在为用户提供高效、精准的推理服务。在单个英伟HGX
    的头像 发表于 02-05 14:48 910次阅读

    英伟被立案调查 英伟回应反垄断调查

    决定的公告》(市场监管总局公告〔2020〕第 16 号),市场监管总局依法对英伟公司开展立案调查。 因为在2020年英伟69亿美元收购
    的头像 发表于 12-10 15:03 812次阅读