0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力荒缓解,自主化智算还有必要吗?

脑极体 来源:脑极体 作者:脑极体 2024-12-23 11:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGdo0nWALojkAAqPBb7uwEU656.jpg

2023年大炼模型兴起,全球范围内都出现了算力供不应求、一卡难求的情况。各地纷纷兴建数据中心、智算中心,来解决国产大模型的算力短缺问题。

今年算力市场又倒向了另一个方向,算力开始过剩和大量闲置了。

主要体现在,高端显卡囤积居奇的生意不好做了,“GPU倒爷”的朋友圈已经从“欲购从速,过时不候”,变成了“A100/H100滞销,帮帮我们”。而算力租赁市场,理想情况下的上架率应该是80%,但很多集群只能达到30%甚至更低,投入大量资金建设的算力闲置,租不出去。

于是一种声音开始甚嚣尘上,认为算力荒已经缓解了,供过于求,应该放慢自主化智算的建设。还有人说,智算中心建的太多了,大模型都用不完了。

发展自主化智算,到底还有没有必要?

wKgZPGdo0naAdNk3AAJhzAurqOk162.jpg

还记得2023年算力荒焦灼、智算建设突飞猛进的时候,倪光南院士曾提到过:各地盲目建设各种低水平智算中心,让人唏嘘不已,一定要警惕“技术房地产”和“数字烂尾楼”。所谓“技术房地产”,就是算力资源卖不出去,只能变成一堆放着服务器的砖头水泥房子,闲置在那里。

短短一年多时间,从算力短缺到算力过剩,究竟是怎么发生的?目前来看,闲置算力主要集中在三种情况:

1.用不起。英伟达的高端显卡GPU是AI训练的首选,2023年一度一卡难求。以N卡为主的智算资源闲置,一是因为巨头们此前已经大量囤积采购了GPU,需求减少;二是炒作之后价格昂贵,即使价格回落,中小企业还是用不起。在很多讨论“算力过剩”的评论区,我们总能看到“降价试试”的留言,说明高端AI算力的需求仍在,只是昂贵的N卡被价格劝退了。

2.不好用。国产卡组成的算力集群,也存在上架率不高、资源闲置的问题,主要是不好用。因为国产卡的集中度不高,一个千卡或万卡集群,往往是由各类国产算力卡组成的,异构算力之间的协同调度,涉及大量工程化细节,没有做好就无法开箱即用。勉强用了,又时不时出现业务中断、算效不高、恢复训练慢等各种问题,导致客户流失。这类被迫闲置的国产算力,正是没有考虑配套,盲目建设的低水平智算中心。

3.用不上。“百模大战”之后,企业不再大炼模型,预训练的算力需求也就大幅下降,算力市场开始转向以推理算力为主。但推理市场的爆发,需要一个过程,目前AI的行业渗透率还比较低,总体不到10%,很多企业对AI的投入以尝试为主,还没有大规模爆发。所以,训练用算力开始出现闲置,而推理用算力还未大规模崛起,因此短缺问题尚未完全显现。

低水平算力的闲置与过剩,再一次警醒我们:一个繁荣健康的算力市场,关键不是建出来,而是用起来。

wKgZPGdo0naAC-z0AAH4xXRpIuk209.jpg

这种情况下,仍然大力发展自主化智算,还有必要吗?

我们认为,这个问题的答案不该有犹豫,要旗帜鲜明地,鼓励自主化智算基础设施的继续建设、加速建设。

首先,从长期看,国内智算属于后发,基础仍然薄弱。

中国智算的进步速度是很快的,但也要客观看到,美国这样的IT先行者,从20世纪90年代以来就在IT建设上大力投入。根据彼得森国际经济研究所的消息,在2024年美国在电子制造业建设方面(主要是芯片)的投资,就超过了1996年至2020年(24年的时间跨度)的总投资。而产业界,xAI、Meta、OpenAI等海外AI巨头,都在积极布局十万卡、五十万卡规模的智算集群。

所以,国内自主化智算近年来的发展虽然迅猛,也是在积极补课,打牢基础。这时候如果停止,不仅会前功尽弃,还会让中美在AI基础设施上的差距进一步拉大。

从近期看,自主化AI算力需求仍然没有得到充分满足,算力荒仍在。

一方面,海外AI算力进口受到限制,极不稳定。目前,国内AI训练芯片市场英伟达占据了80%~80%的市场份额,要避免威胁供应链安全,这种情况必须尽快改变。上海的“算力浦江”智算行动实施方案(2024—2025年)要在2025年,实现新建智算中心的国产算力芯片使用占比超过50%;《北京市算力基础设施建设实施方案(2024—2027年)》则提出,2027年要具备100%自主可控智算中心建设能力。

三年左右,从不到20%发展到100%。所以,如今的自主化智算不是太多了,而是还不够。

与此同时,算力需求仍在增长。大模型的规模法则仍在继续,以Sora为代表的视频生成模型对算力的需求量是LLM大模型的数倍,已经出现了“一栋楼放不下一个模型”“一个模型需要多个集群”的情况,超万卡智算中心是必不可少的基础设施,目前国内的十万卡集群还远远不足。

此外,大炼模型的阶段虽然结束了,但基础模型的市场集中度提高和能力提高,又会释放AI应用需求,促进AI的行业渗透率、普及率,导致AI推理算力的需求爆发,急需要更多高质量算力来满足。目前部分国产AI算力集群的利用率极高,西安昇腾智能科技有限公司的人工智算中心算力使用率就高达98.5%;曙光在长沙的5A级智算中心,也吸引上百家企业入驻,实现万余个商业应用接入。因此,随着产业智能化升级的继续推进,国产AI算力荒不是已经解决,而是从现在开始重视和应对。

互联网产业的核心,当然不是宽带和机房,但没有“宽带高速公路”,就没有美国互联网经济的爆发;移动互联网的核心,也不是基站,但没有广泛覆盖的4G基站,就没有智能手机和移动应用软件的兴起。AI大模型也是一样, AI作为一种依附在基础设施之上的软件技术,核心不是智算,但没有自主化智算,国内AI绝不可能独善其身、独自蓬勃发展。

因此,自主化智算并不存在过剩,更不该就此放慢发展。

wKgZPGdo0niAeCxJAAJVXfK1gHM154.jpg

综上,“国内AI算力过剩”,是个假问题,“如何合理地推进自主化智算的建设”,才是真问题。

解决这个真问题,国内智算产业已经来到了承上启下的新阶段。不仅要追求把智算中心“建起来”,还要能运营好、用起来。

因此,智算厂商的竞争,也从售卖硬件资源与智算解决方案,转变为多维度、综合性、长期服务的竞争。比如华为昇腾AI全栈、中科曙光的“立体计算”、宁畅的“全局智算”、联想的“万全生态”,新华三的“1+N”智算等,以更全面的能力,支撑自主化智算的建设运营。

wKgZO2do0niAR8yCAABY6QimnW4345.jpg

追求全面,并不意味着胡子眉毛一把抓,目前来看,智算厂商们主要集中解决自主化AI算力的几个痛点问题:

1.异构问题。目前,国产AI芯片还无法规模化出货,市场集中度较低,因此都是以混合算力的形式,来加入智算集群。多元异构算力的协同调度、管理、算效、业务可靠性等,面临很多技术挑战。如果一个企业或开发者,要针对ABCD不同厂商的卡进行适配开发,是不可能的。所以,就需要智算厂商提供相应的系统平台,屏蔽底层异构硬件的复杂性,让大家用好国产算卡。比如联想的万全异构智算平台,实现异构化AI算力的管理与调配;新华三面向异构智算的智能管理平台,一站式应对多样化的AI应用场景。

2.算效问题。解决“低质量算力过剩,自主化高质量算力不足”的结构性问题,需要进一步提高国产AI的性能。面对工艺制程的限制,可以通过软硬件系统的无缝配合,从而实现国产算卡性能的充分释放。以昇腾为例,就与昇思紧密结合,为各类智算场景提供高性能的自主化AI算力,深圳鹏城实验室的“鹏城云脑Ⅱ”就依托昇腾实现了中国首个自主可控的E级智能算力平台,可以提供不低于1000Pops的整机AI计算能力。

3.运营问题。如今,一些地方在智算中心建设之前,开始提出上架率、收益率等要求,需要保证项目投运后有一定的使用率。同时,也会要求建设方提供设计、使用、运营等一体化服务,避免智算中心因无人运营而成为“数字烂尾楼”。以用促建、以服促用,已经是自主化智算发展的必然潮流。比如新华三与杭州市合作,打造“图灵小镇”,培育AIGC产业和数字人才;中科曙光“立体计算”主张“算力建设、应用赋能、生态共生”三位一体,推动多元算力向新质生产力转化,目前已经在5A级智算中心落地实践。

wKgZPGdo0nmAP-crAAM0iGTYFJI731.jpg

回顾这一年多来,国内智算的发展突飞猛进,取得了举世瞩目的成绩,我们不必再为算力荒而忧心忡忡。但人无远虑必有近忧,AI算力的自主化之路不能就此戛然而止,而要一鼓作气,再加把劲,把已经取得的成果夯实,为接下来的智能浪潮做好准备。

避免低质量算力过剩,与加速自主化智算发展,这两件事可以并行不悖,也应该理性分开看待。

wKgZO2do0nqAIjXLAAHUxLhXXGs779.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41115

    浏览量

    302606
  • 算力
    +关注

    关注

    2

    文章

    1673

    浏览量

    16833
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    天数智芯助力DeepLink异构训推一体升级

    当前,通用人工智能发展驶入快车道,大模型对的需求呈现爆发式增长,异构的高效协同成为释放
    的头像 发表于 03-26 09:30 446次阅读
    天数智芯助力DeepLink异构<b class='flag-5'>算</b><b class='flag-5'>力</b>训推一体<b class='flag-5'>化</b>升级

    国产出海元年开启

      国产开启“大航海”时代。 黄仁勋前段时间访华时曾表示:“华为AI芯片取代英伟达只是时间问题。”彼时,这话多被解读为对老对手的客套。但在刚刚结束的2025世界人工智能大会上,华为昇腾384超
    的头像 发表于 03-24 15:15 522次阅读
    国产<b class='flag-5'>算</b><b class='flag-5'>力</b>出海元年开启

    将AI送上太空,是终极方案还是疯狂幻想?评论区说出你的阵营!

    AI
    江苏易安联
    发布于 :2026年01月06日 09:43:34

    什么是AI边缘模组?​

    天数智AI边缘模组以其多元的产品矩阵、领先的技术实力和广泛的行业应用,正成为推动各行业智能变革的重要力量。未来,天数智将继续深耕边
    的头像 发表于 12-17 17:09 1022次阅读
    什么是AI边缘<b class='flag-5'>算</b><b class='flag-5'>力</b>模组?​

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    捷智重大更新|API接口全面开放,调用更高效

    人工调度太耗时?业务系统对接总卡壳?捷智重磅升级——租赁平台API接口正式开放,让
    的头像 发表于 11-21 18:41 1091次阅读
    捷智<b class='flag-5'>算</b>重大更新|API接口全面开放,<b class='flag-5'>算</b><b class='flag-5'>力</b>调用更高效

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的AI模组将在更多领域发挥重要作用,实现实时、安
    的头像 发表于 09-19 15:26 2090次阅读
    什么是AI<b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的AI模组将在更多领域发挥重要作用,实现实时、安
    的头像 发表于 09-19 15:25 1036次阅读
    什么是AI<b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    昆仑芯科技亮相2025中国大会

    8月22日至24日,2025中国大会在山西大同举办,本届大会以“网筑基 智引未来”为主题,聚焦网络新趋势,共话
    的头像 发表于 08-27 15:11 2021次阅读

    中国智能规模增长将超40%

    在2025中国大会上传来好消息,现阶段 ;我国平台正加快建设,已有山西、辽宁、上海、江苏等10个省区市的
    的头像 发表于 08-25 19:28 1060次阅读

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI的三要素,是、算法和数据。而AI
    的头像 发表于 07-23 12:18 1944次阅读
    一文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    软通智完成超亿级A轮融资,加速AI产业布局

    机构跟投。 自2024年成立以来,软通智积极参与全国一体网建设,以技术驱动互联互通体
    的头像 发表于 06-18 15:37 710次阅读

    华为AI WAN智IP广域网助力互联网建设

    的发展机遇。数据通信网络的高效性、可靠性和智能程度,直接决定了资源能否在广域网范围内实现快速、精准的调配与利用,进而影响互联网的整
    的头像 发表于 06-11 11:21 1302次阅读

    软通智中标韶关公共服务平台项目

    日前,软通动力旗下软通智中标《韶关公共服务平台(一体
    的头像 发表于 05-22 16:19 1169次阅读

    点动科技战略聚焦AI智,领航服务新征程

    Al智业务收入占比已突破40%,标志着点动从传统业务向智能转型的战略跨越取得阶段性胜利! 技术赋能构建核心壁垒,全栈能力驱动行业智能升级 在技术布局上,点动科技聚焦行业模型和Al应用,以GPU
    的头像 发表于 05-07 09:29 731次阅读