0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云暂停A100服务器出租,AI算力奇缺!国产AI芯片任重道远

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-11-09 09:08 次阅读

电子发烧友网报道(文/李弯弯)上个月,美国发布更新针对AI芯片的出口管制规定,新措施意在填补去年10月发布法规中的漏洞。这样意味着,除了英伟达A100/H100之外,其针对中国市场推出的替代版本A800/H800等GPU对华出售也将受到限制。

近日,阿里云A100服务器业务暂停出租的消息传出。这反映出,美国对AI芯片的出口管制规定,已经对中国的算力供应造成影响。当前的情况是,需求侧大模型正在快速发展,对算力的需求不断提升;供给侧英伟达GPU芯片对华销售受阻,市面上A100/A800等现货价格水涨船高,算力租赁服务售价同样如此。而阿里云在满足自身大模型研发需求之外,也已经没有足够多算力用于对外出租。

捉襟见肘的AI算力

目前,国内各大互联网厂商都已经推出自己的大模型产品,并在不断探索技术和应用创新,同时各行各业的企业,无论大小,都在尝试将大模型技术引入自己的产品和解决方案中。而无论是大模型的研究和应用,其训练和推理过程都需要依靠强大的算力作支撑。

百度、腾讯、字节、阿里作为国内主要的云服务厂商。相较之下,购买和积累了更多的GPU产品。其中,字节跳动A100 和V100显卡总数接近10万块,阿里巴巴集团也大概拥有10万块顶级显卡。腾讯因为在2022年底砍掉一批英伟达订单,其拥有的GPU数量较少。相对来说,百度所拥有的顶级GPU数量也偏少。

近年来,大模型热潮如龙卷风般袭来,这对GPU的需求不断增加,上述各大厂商也加大了向英伟达GPU所下的订单,以扩大自己的基础硬件设施储备。今年8月,百度、字节、腾讯和阿里向英伟达下单订购50亿美元的芯片,其中价值10亿美元约10万颗英伟达A800芯片,将在年内交付。另外价值40亿美元的芯片将于2024年交付。

然而,在上个月美国发布AI芯片出口管制新规之后,这些订单都将不能如期交付。这意味着各大互联网厂商面临着不同程度的GPU芯片紧缺的局面。

阿里云此次暂停A100服务器对外出租可想而知就是如此。阿里云是全球领先的云计算服务提供商之一,它提供各种各样的云计算产品和服务,包括云服务器租赁。

阿里云云服务器租赁是一种将计算资源分配给用户的服务,用户可以通过互联网租用虚拟化的服务器资源。这些服务器资源是在阿里云数据中心中运行的,用户只需要根据自己的需求选择适合自己的云服务器,并根据需要支付租金。

在10月31日开幕的2023年云栖大会上,阿里巴巴集团董事会主席蔡崇信谈到,在当下的智能化时代,阿里巴巴要致力于打造AI时代最开放的云。他表示,目前,中国有80%的科技企业和一半的大模型公司都跑在阿里云上。

除了对外出租,阿里云正在研发和迭代自己的通义千问大模型,这对GPU算力的需求很高。举例来看,OpenAI的GPT-3训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100 服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,用于训练的GPU数量增加了近24倍。

根据行业人士的推测,国内头部大模型厂商如果对标GPT-3模型的训练需求,需要1920台A100/A800服务器,对应15360张GPU。如果对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11万张GPU。

根据此前传出的一份交流纪要里,阿里云AI专家提到,阿里云在云上有上万片的A100,整体能够达到10万片,集团体量应该是阿里云的5倍。该AI专家提到,大模型大规模的应用,成本也很高,比如ChatGPT完成一个推理任务,需要5张A100在2秒钟之内做一次推理。

大致来看,1万张顶级显卡才刚刚算是能够跨进大模型的门。而如果要训练更高级别的大模型,对GPU的需求将会呈大幅度增长。就如上文所述,阿里云拥有大约1万张A100,已经足够其训练大模型产品,然而如果它想训练出对标GPT-4的模型,可能就要用上阿里集团目前所有的GPU卡。

逐渐能用的国产AI芯片

随着大模型的研发和应用,以及美国对AI芯片的出口管制,目前市场面现有的英伟达GPU芯片已经涨到天价,而且所剩不多,各个算力租赁服务企业价格也在不断上涨。阿里云或许是为了率先满足自己对算力的需求,只得暂停A100服务器对外出租。

然而这些举措都没有办法真正解决,目前国内对可用于大模型训练和推理的AI芯片的需求问题。近日,面对美国加强对华人工智能芯片管制,英特尔率先提出应变策略。据英特尔供应链透露,英特尔已针对最新发布的Gaudi2推出降规版出货,预计将不受新禁令影响。

不过,即使Gaudi2降规版短期内能够出货,然而其性能必然是会大打折扣的。要知道,之前英伟达在符合去年10月法规的基础上,推出的A800/H800,相对于A100/H100在关键性能上就已经大幅限制,如今要符合更新后的出口管制规定,Gaudi2降规版计算性能还得更进一步下调。

期待国产AI算力芯片的突围,才是长久之计。事实上,目前已经有一些国产企业的人工智能芯片,受到客户的青睐。比如弘信电子近日发布公告称,已与上海燧原科技有限公司签署采购协议,拟长期向燧原科技采购一定数量的人工智能加速卡及配套产品作为原材料。本次公司已正式向燧原科技下发9152片芯片采购订单,计划于年底前完成全部芯片的交付,快速形成国产算力落地。

近日也有消息传出,百度为200台服务器订购了1600片昇腾910B AI芯片。到10月份,华为已向百度交付了超过60%的订单。而且此前科大讯飞此前就已经采用华为昇腾910B芯片,该公司还表示,当前华为昇腾910B能力已经基本做到可对标英伟达A100。

总结

可以看到,在当前大模型的不断发展,及美国对AI芯片的出口管制下,算力已经出现了极度紧缺的情况。虽然英特尔表示,已发布针对最新发布的Gaudi2推出降规版。然而可想而知其性能将会大打折扣,而且不能确保美国后续不会针对降规版也实施限制。长久来看,发展中国自己的AI算力芯片极其重要,而如今已经有国产的AI芯片可以用于大模型的训练和推理,这无疑给国产AI芯片在未来的发展中增添了更多信心。






声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26451

    浏览量

    264068
  • 阿里云
    +关注

    关注

    3

    文章

    883

    浏览量

    42615
收藏 人收藏

    评论

    相关推荐

    risc-v多核芯片AI方面的应用

    得RISC-V多核芯片能够更好地适应AI算法的不同需求,包括深度学习、神经网络等,从而提高芯片的性能和效率,降低成本,使AI边缘计算晶片更具竞争
    发表于 04-28 09:20

    联想向燧弘华创交付首台搭载国产AI算力芯片的问天WA5480 G3服务器

    3月19日,在联想集团(全球)最大的智能计算设备研发和制造基地——联宝科技,联想集团向燧弘华创交付联想首台可搭载国产AI算力芯片的联想问天WA5480 G3服务器
    的头像 发表于 03-22 09:40 242次阅读

    联想首台搭载国产AI算力芯片服务器成功交付

    在联想(全球)最大的智能计算设备研发和制造基地——联宝科技,一场科技界的盛事吸引了业界的广泛关注。这一天,中国领先的智能IT基础设施提供商联想成功交付了首台可搭载国产AI算力芯片的联想问天WA5480 G3
    的头像 发表于 03-20 09:42 254次阅读

    Suma AI服务器:全栈国产,入局!

    要求算力供应者稳定可靠,产品生态兼容,可减少升级成本,同时更懂本土“体质”。 在这一背景下,中科可控Suma AI服务器脱颖而出,其搭载国产计算平台,兼容主流软件生态,算力强劲,最高支持8卡加速互联,可提供多种产品组合,按需定制
    的头像 发表于 02-28 15:18 568次阅读
    Suma <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>:全栈<b class='flag-5'>国产</b>,入局!

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,能RADXA微服务器的具体规格: 处理:BM1684X :高达32Tops INT8峰值
    发表于 02-28 11:21

    YXC晶振解决方案AI服务器中的应用

    AI服务器常用频点:50MHZ、125MHZ、156.25MHZ,适用于AI服务器的YXC差分晶振
    的头像 发表于 12-18 18:06 192次阅读
    YXC晶振解决方案<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>中的应用

    英伟达AI服务器需求助推生益科技CCL供应

    据悉,AI服务器所需的CCL用量大约是普通服务器的八倍,而当英伟达的AI服务器计划在2024年下半年升级至更先进的B
    的头像 发表于 12-13 15:37 675次阅读

    AI服务器的内存接口芯片技术

    DXG 服务器配备 8 块 H100 GPU,6400亿个晶体管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB/s 的带宽。
    发表于 12-13 09:23 422次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>的内存接口<b class='flag-5'>芯片</b>技术

    2023年上半年中国AI服务器市场规模成长了54%

    国产AI服务器所需的AI加速芯片的供应商来看,目前国内阿里巴巴(含光系列)、百度(昆仑系列)、
    的头像 发表于 10-15 11:00 1401次阅读
    2023年上半年中国<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>市场规模成长了54%

    AI服务器架构的五大硬件拆解

    AI 服务器我们瞄准英伟达 DGX A100 和 DGX H100 两款具有标杆性产品力的产品进行分析,鉴于 H100 发布时间较短、资料详
    发表于 08-11 09:24 3562次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>架构的五大硬件拆解

    英伟达a100国产替代吗?

    英伟达a100国产替代吗? 目前尚未出现明确可替代英伟达A100国产产品,但中国国内的企业正在积极推进相关领域的研发和生产。例如,中国科技巨头华为正在开发自主研发的
    的头像 发表于 08-08 15:37 3692次阅读

    英伟达A100的优势分析

    HBM2显存。 英伟达A100是一款高性能的GPU,其主要优势如下: 1. 支持高效的AI计算:A100采用了新一代的Tensor Core技术,能够在AI计算方面提供卓越的性能,为
    的头像 发表于 08-08 15:25 2662次阅读

    英伟达A100是什么系列?

    英伟达A100是什么系列? 全球都在关注生成式人工智能;特别是OpenAI发布ChatGPT以来,生成式人工智能技术一下就被拔高。在大模型训练中,A100是非常强大的GPU。英伟达的AI芯片
    的头像 发表于 08-08 15:13 2234次阅读

    AI服务器与传统服务器的区别是什么?

    AI 服务器确实是整个服务器市场的一部分,但它们是专门为基于云的 AI 模型训练或推理而设计的。在规格方面,广义的AI
    发表于 06-21 12:40 1320次阅读