0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云暂停A100服务器出租,AI算力奇缺!国产AI芯片任重道远

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-11-09 09:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)上个月,美国发布更新针对AI芯片的出口管制规定,新措施意在填补去年10月发布法规中的漏洞。这样意味着,除了英伟达A100/H100之外,其针对中国市场推出的替代版本A800/H800等GPU对华出售也将受到限制。

近日,阿里云A100服务器业务暂停出租的消息传出。这反映出,美国对AI芯片的出口管制规定,已经对中国的算力供应造成影响。当前的情况是,需求侧大模型正在快速发展,对算力的需求不断提升;供给侧英伟达GPU芯片对华销售受阻,市面上A100/A800等现货价格水涨船高,算力租赁服务售价同样如此。而阿里云在满足自身大模型研发需求之外,也已经没有足够多算力用于对外出租。

捉襟见肘的AI算力

目前,国内各大互联网厂商都已经推出自己的大模型产品,并在不断探索技术和应用创新,同时各行各业的企业,无论大小,都在尝试将大模型技术引入自己的产品和解决方案中。而无论是大模型的研究和应用,其训练和推理过程都需要依靠强大的算力作支撑。

百度、腾讯、字节、阿里作为国内主要的云服务厂商。相较之下,购买和积累了更多的GPU产品。其中,字节跳动A100 和V100显卡总数接近10万块,阿里巴巴集团也大概拥有10万块顶级显卡。腾讯因为在2022年底砍掉一批英伟达订单,其拥有的GPU数量较少。相对来说,百度所拥有的顶级GPU数量也偏少。

近年来,大模型热潮如龙卷风般袭来,这对GPU的需求不断增加,上述各大厂商也加大了向英伟达GPU所下的订单,以扩大自己的基础硬件设施储备。今年8月,百度、字节、腾讯和阿里向英伟达下单订购50亿美元的芯片,其中价值10亿美元约10万颗英伟达A800芯片,将在年内交付。另外价值40亿美元的芯片将于2024年交付。

然而,在上个月美国发布AI芯片出口管制新规之后,这些订单都将不能如期交付。这意味着各大互联网厂商面临着不同程度的GPU芯片紧缺的局面。

阿里云此次暂停A100服务器对外出租可想而知就是如此。阿里云是全球领先的云计算服务提供商之一,它提供各种各样的云计算产品和服务,包括云服务器租赁。

阿里云云服务器租赁是一种将计算资源分配给用户的服务,用户可以通过互联网租用虚拟化的服务器资源。这些服务器资源是在阿里云数据中心中运行的,用户只需要根据自己的需求选择适合自己的云服务器,并根据需要支付租金。

在10月31日开幕的2023年云栖大会上,阿里巴巴集团董事会主席蔡崇信谈到,在当下的智能化时代,阿里巴巴要致力于打造AI时代最开放的云。他表示,目前,中国有80%的科技企业和一半的大模型公司都跑在阿里云上。

除了对外出租,阿里云正在研发和迭代自己的通义千问大模型,这对GPU算力的需求很高。举例来看,OpenAI的GPT-3训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100 服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,用于训练的GPU数量增加了近24倍。

根据行业人士的推测,国内头部大模型厂商如果对标GPT-3模型的训练需求,需要1920台A100/A800服务器,对应15360张GPU。如果对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11万张GPU。

根据此前传出的一份交流纪要里,阿里云AI专家提到,阿里云在云上有上万片的A100,整体能够达到10万片,集团体量应该是阿里云的5倍。该AI专家提到,大模型大规模的应用,成本也很高,比如ChatGPT完成一个推理任务,需要5张A100在2秒钟之内做一次推理。

大致来看,1万张顶级显卡才刚刚算是能够跨进大模型的门。而如果要训练更高级别的大模型,对GPU的需求将会呈大幅度增长。就如上文所述,阿里云拥有大约1万张A100,已经足够其训练大模型产品,然而如果它想训练出对标GPT-4的模型,可能就要用上阿里集团目前所有的GPU卡。

逐渐能用的国产AI芯片

随着大模型的研发和应用,以及美国对AI芯片的出口管制,目前市场面现有的英伟达GPU芯片已经涨到天价,而且所剩不多,各个算力租赁服务企业价格也在不断上涨。阿里云或许是为了率先满足自己对算力的需求,只得暂停A100服务器对外出租。

然而这些举措都没有办法真正解决,目前国内对可用于大模型训练和推理的AI芯片的需求问题。近日,面对美国加强对华人工智能芯片管制,英特尔率先提出应变策略。据英特尔供应链透露,英特尔已针对最新发布的Gaudi2推出降规版出货,预计将不受新禁令影响。

不过,即使Gaudi2降规版短期内能够出货,然而其性能必然是会大打折扣的。要知道,之前英伟达在符合去年10月法规的基础上,推出的A800/H800,相对于A100/H100在关键性能上就已经大幅限制,如今要符合更新后的出口管制规定,Gaudi2降规版计算性能还得更进一步下调。

期待国产AI算力芯片的突围,才是长久之计。事实上,目前已经有一些国产企业的人工智能芯片,受到客户的青睐。比如弘信电子近日发布公告称,已与上海燧原科技有限公司签署采购协议,拟长期向燧原科技采购一定数量的人工智能加速卡及配套产品作为原材料。本次公司已正式向燧原科技下发9152片芯片采购订单,计划于年底前完成全部芯片的交付,快速形成国产算力落地。

近日也有消息传出,百度为200台服务器订购了1600片昇腾910B AI芯片。到10月份,华为已向百度交付了超过60%的订单。而且此前科大讯飞此前就已经采用华为昇腾910B芯片,该公司还表示,当前华为昇腾910B能力已经基本做到可对标英伟达A100。

总结

可以看到,在当前大模型的不断发展,及美国对AI芯片的出口管制下,算力已经出现了极度紧缺的情况。虽然英特尔表示,已发布针对最新发布的Gaudi2推出降规版。然而可想而知其性能将会大打折扣,而且不能确保美国后续不会针对降规版也实施限制。长久来看,发展中国自己的AI算力芯片极其重要,而如今已经有国产的AI芯片可以用于大模型的训练和推理,这无疑给国产AI芯片在未来的发展中增添了更多信心。






声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42532

    浏览量

    303445
  • 阿里云
    +关注

    关注

    3

    文章

    1053

    浏览量

    45985
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里神秘AI芯片正式官宣!GPGPU路线,性能超越A100

    电子发烧友网报道(文/梁浩斌)去年9月,我们曾报道过,阿里平头哥一款未公开的AI芯片PPU登上央视《新闻联播》节目,该产品性能参数在新闻
    的头像 发表于 01-30 09:01 8201次阅读
    <b class='flag-5'>阿里</b>神秘<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>正式官宣!GPGPU路线,性能超越<b class='flag-5'>A100</b>

    阿里发布基于平头哥新一代AI芯片真武M890的128卡超节点服务器

    近日,在2026阿里峰会上,阿里发布基于平头哥新一代AI芯片真武M890的128卡超节点
    的头像 发表于 05-22 10:23 271次阅读

    AI 服务器电源:现状剖析与未来展望

    AI技术蓬勃发展的当下,AI服务器作为的核心支撑,其电源系统的重要性愈发凸显。它不仅是服务器
    的头像 发表于 05-07 11:20 511次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>服务器</b>电源:现状剖析与未来展望

    AI服务器PCBA加工技术解析:高时代的核心制造能力

    AI服务器PCBA加工 是AI服务器硬件制造的重要环节,也是支撑人工智能基础设施的重要技术能
    的头像 发表于 04-16 22:57 282次阅读

    成都汇阳投资关于AI 引爆需求,存储芯片涨价周期来袭

    。2026年全球AI 服务器出货量预计同比激增 180%,厂 商资本开支同比提升40%至6000亿美 元 ,建设的加速直接推动存储
    的头像 发表于 03-27 17:12 807次阅读

    爆发下的刚需赛道:AI服务器高频高速连接需求迎爆发式增长

    当前,AI基建正进入全面爆发期,高频高速连接作为AI服务器的核心零部件,承担着短距离高速信
    的头像 发表于 03-20 14:07 1250次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>爆发下的刚需赛道:<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>高频高速连接<b class='flag-5'>器</b>需求迎爆发式增长

    GPU服务器哪家强?深度学习与AI训练性能实测

    每小时数十元甚至数百元的租金,让成本成为了项目成败的关键。2026年的GPU市场不再是A100一家独大,H200、B200以及国产
    的头像 发表于 03-19 16:45 667次阅读

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    AI服务器) 这一形态应运而生。它需要在极小体积内,提供接近服务器级的AI吞吐能力,同时具备工业级的接口扩展性。 OrangePi AI S
    发表于 03-10 14:19

    觉醒 · AI共生——上海永铭电子2025AI服务器电容应用专题会议圆满落幕

    随着人工智能浪潮席卷全球,AI正以前所未有的速度爆发式增长。在这场决定未来的技术竞速中,稳定、高效、可靠的电力供应是基石的核心。而电
    的头像 发表于 11-03 14:00 1232次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>觉醒 · <b class='flag-5'>AI</b>共生——上海永铭电子2025<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>电容应用专题会议圆满落幕

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    阿里自研AI芯片央视曝光,国产崛起新里程碑

    ,因为其中披露了阿里旗下平头哥最新研发的面向人工智能的PPU芯片。这一曝光,不仅让大众看到了阿里AI芯片领域的深厚积累与卓越成果,更标志着
    的头像 发表于 09-18 17:07 2881次阅读

    多达 48 个计算节点!Firefly 推出 CSC2-N48 AI 服务器

    Firefly最新推出CSC2-N48服务器,内置48个分布式计算节点,单节点可提供6TOPS-157TOPS,可选瑞芯微、
    的头像 发表于 08-20 16:37 1997次阅读
    多达 48 个计算节点!Firefly 推出 CSC2-N48 <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b>

    借势 RISC-V与 AI 浪潮,元石智打造新范式

    与RISC-V架构崛起的双重浪潮下,国产服务器系统行业正迎来关键发展机遇。 武汉元石智科技有限公司(下文简称“元石智”)作为国产
    的头像 发表于 07-25 14:51 906次阅读
    借势 RISC-V与 <b class='flag-5'>AI</b> 浪潮,元石智<b class='flag-5'>算</b>打造<b class='flag-5'>算</b><b class='flag-5'>力</b>新范式

    AI 服务器电源如何迭代升级?

    AI 需求增长的今天,AI 服务器电源正陷入 “性能瓶颈与国产替代并行、场景适配与技术创新
    的头像 发表于 06-23 14:51 1900次阅读

    AI新基建背后的中国芯力量——中微爱芯服务器芯片国产化替代全景解读

    计算架构已难以支撑AI技术的迭代速度。这一矛盾直接催生了AI服务器的快速发展——作为承载AI
    的头像 发表于 06-20 13:55 2273次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新基建背后的中国芯力量——中微爱芯<b class='flag-5'>服务器</b><b class='flag-5'>芯片</b><b class='flag-5'>国产</b>化替代全景解读