0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

万卡时代不打群架,中国智算正过三关

脑极体 来源:脑极体 作者:脑极体 2024-05-08 21:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我前两天看到了一个挺震撼的视频,科学家们在NASA戈达德空间飞行中心的天体物理学家指导下,使用Discover超级计算机模拟了跳入黑洞的过程。

画面视觉效果摄人心魄,而一组数据同样让我感到震撼:该视频生成10TB的数据,只用了5天,耗费了0.3%总算力。如果我们想用自己的笔记本电脑模拟这个场景,需要花费的时间是10年。

“时间就是金钱,效率就是生命”,这句改开时代的口号,在大模型驱动的智算时代,仍旧不过时。

算力作为生产力,所节约的不只是金钱,更重要的是时间。

目前算力集群已经从千卡,迈入了万卡、五万卡集群。甚至有媒体预测,GPT6未来部署的时候,需要70万-80万张卡才能支撑。

那问题来了,万卡集群在执行大规模训练任务时负载重,发生软硬件错误的概率,当然也就更高。万卡时代,一张卡、一台机器或一个链路的故障,都可能导致中断,拖慢进程。那么十万卡、百万卡等更大数量级的提升,未来如何应对?

最近几个月,我们团队跟不少ICT厂商做了交流,简单总结一下行业动向,那就是:迈入万卡时代,必须“过三关”。

万卡时代,做AI=“中彩票”?

有必要首先说明一下,为什么智能计算仍在“堆卡”?从千卡、万卡到十万卡、百万卡,这个趋势是可持续的吗?

伴随着模型规模与数据参数愈发庞大,在可以预见的未来,基础设施层面的“堆卡”竞赛仍将继续。

目前,国际科技巨头如谷歌、微软、苹果等,在算力集群建设上持续投入,其中AI算力占总算力支出的比例持续增长,预计到2025年将达到25%。放眼国内,万卡及以上的组网也成为下一代智算中心的建设重点。

然而,算力集群卡的数量非线性增加,会带来更大的不稳定性和协作难度。正如新华三在前不久的媒体与分析师大会上所说,单卡单打独斗我们(与N卡)有差距,多卡集群服务不能打群架。

wKgZomY7XLaAXni9AATBFxeGOjg564.jpg

(拍摄自新华三集团2024媒体与分析师沟通会)

我们知道,分布式并行训练能够加速训练过程,是大模型常用的训练方式,相当于将任务分配给多个AI硬件,组成协作节点和集群,主打一个“人多力量大”。但是,人多还得心齐啊,让多卡用高效一致的步伐进行协作,却是一件难事,容易出现“打群架”的情况。

多卡“打架”,集群就会因故障而中断。

一位清华大学计算机教授曾分享过一个数据,其团队写一次容错检查点checkpoint需要三小时,这还是世界先进水平(未经优化前)。

工作三小时就得被迫停下,活(训练过程)又一点不能少,只能加班加点。普通打工人听了都得“抓狂”,更别说要跟技术创新抢速度、作业生产要效率的产学界了。

多卡集群“不打群架”,将算力最大化地有效使用起来,发挥每一张GPU的价值,提升训练效率,对开发人员来说,堪比中“彩票”,价值很大,但概率却不定。

显然,千行百业智能化,当然不能靠“中彩”和运气。

当算力集群即将从万卡,迈入五万、十万乃至百万卡的清晰未来,我们不能只以单一的规模和FLOPS浮点运算次数,来衡量智算中心的综合水平。其他因素也同样重要,比如集群扩展性、兼容性、算效比、能耗比等。

如何提供一个稳定可靠高性能的智算基础设施,万卡时代要“过三关”。

第一关:闯过资源墙

超大规模集群的不稳定性,一方面要对抗硬件数量非线性增长带来的“增熵”。

随着集群增大,AI芯片也会出现算力衰减的情况。支撑稳定高效的训练,就需要优化分布式计算系统的并行加速比。

更高的加速比,可以让集群在执行同一任务时,获得更高的速度和效率。也就是说,算力集群能够最大限度地一直运转,那么有效训练时间的比例更高,是开发人员衡量集群性能的一个关键。

比如国产大模型文心4.0,就通过百度智能云的万卡集群进行训练,支持模型的稳定高效迭代进化。目前,百度智能云上万卡训练集群的加速比和有效训练时间,达到 95% 以上。

wKgaomY7XLiAe_x6AANoU-Sp9e8566.jpg

(拍摄自IPF2024浪潮信息生态伙伴大会)

另一方面,中国智算还有一个特殊的要求,那就是闯过多元异构算力的“资源墙(resource wall)”。

不少智算中心,使用不一样的AI芯片服务器组成异构集群合池训练,共同完成一个大模型训练。尤其是此前GPU紧缺的情况下,一些数据中心、智算中心在不同时期,购买了不同的GPU,形成了不同类型、不同版本的异构集群。

多元异构的国产算力,既能以用促建,促进国产AI芯片的发展,减少对海外单一供应链的依赖,也能发挥不同类型芯片的特性,提高计算资源的利用率和训练效率。

但要将多元异构算力进行合池训练,会带来精度误差、同步问题,以及更复杂的资源管理和调度策略,更高的开发运维难度等。

未来,每个行业、每家公司都可能训练自己的大模型,带来充沛、高效、稳定的AI算力需求。让十万百万级集群、多元异构的算卡,以高效一致的步伐进行协作,将成为中国智算行业的关键挑战。

第二关:踏宽通信

如果网络通信的联接能力不畅,大量算力资源折损在传输过程中,给智算中心与AI模型开发者带来的损失都是难以估量的。

如何将大量算卡有效地连接起来,形成一个高效稳定的计算网络,是支撑超大规模集群的关键。

需要说明的是,网络作为算力运输的道路,并不能无止境地拓宽。集群网络,尤其是万卡、十万卡集群网络的拓展,会受到几方面的制约。

首先是成本上,万卡乃至五万卡集群,所需要的网络设备数、端口数、光模块数量,可能会达到百万级别。而一个普通的400G光模块功耗就在10瓦到12瓦,当一个网络需要一万多个光模块,仅仅是电费成本都非常庞大。

wKgZomY7XLiAcfSsAANqXSCC1kA090.jpg

此外,有业内人士向我们表示,万卡集群还容易搭建起来,未来如果要有百万卡集群来训练的大模型,可能整个城市的电都不够用。解决这个问题,那就需要分区、跨城域的算网,比如将多个万卡集群连起来,组成五万卡、十万卡集群。这就需要超高带宽的400G甚至800G网络,低时延、无损地支撑算力资源调度。

而一张运力强大、辐射范围广的算力网络,意味着管理运维的难度,也前所未有地增大了,依靠传统人力运维是不现实、不高效的。通过智能化、平台化、自动化,来实现更有效的网络纳管,是华为、新华三等ICT厂商正在探索的方向。

第三关:走出软件生态丛林

郑纬民院士曾提到一个观点:目前国内已经有30多家公司推出了国产AI芯片,“但用户不太喜欢用,核心问题就是生态不好”。

这里的生态,指的是国产软件生态。

目前,编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等关键软件,虽然都有国产的,但仍有不足之处,比如功能不够齐全、性能不够好、生态贡献者不够繁荣等。

在郑院士看来,如果能把软件问题解决好,那么国产AI芯片硬件性能达到国外芯片的60%,大多数用户也可以是满意的,国产AI卡也会大受欢迎。软件做不好,国产硬件再好,也没有市场。

而万卡时代,意味着AI硬件的种类更多,既有不同架构,还有不同品类、不同版本。企业或开发者想要着手AI模型和应用开发,会在复杂的软件生态中晕头转向,很难快速找到路径。

比如说,每个芯片厂商都有自己的底层软件栈,且彼此不兼容,这就给AI开发者带来了大量移植工作,适配迁移的操作繁琐,时间、人力、金钱成本都很高。

我们注意到,2024年以来,帮助企业和AI开发者加快走出软件丛林,不少智算厂商都在强化AI软件赋能。比如宁畅在3月提出了“全局智算”战略,以“AI软动力”支持“精、准、稳”的AI集群设计,帮助客户实现大规模AI集群方案架构设计;中科曙光首次提出了“立体计算”体系,在“建、用、生态”三维发力的全新计算体系中,加大对软件生态的投入和支持;4月浪潮信息发布的企业大模型开发平台“元脑企智(EPAI)”,通过端到端的解决方案,为企业提供AI应用开发全流程的系列工具。

可以看到,“软硬兼施”的均衡能力,正在成为智算市场的兵家必争之地。

wKgaomY7XLmABt3oAAWjkyC_OnM580.jpg

(拍摄自宁畅全局智算发布会)

大模型正在重塑产品、企业和社会,AI将无处不在,也让万卡时代成为一个确定性的未来。五万卡、十万卡乃至百万卡的算力集群,将是第四次工业革命的蒸汽机、发动机。

量子力学的创始人海森堡说过,提出正确的问题,往往等于解决了问题的大半。

从这个角度来说,正在闯关的中国智算行业,一定能在万卡时代,将算力的“心脏”握在自己手中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    485

    浏览量

    43523
  • 算力
    +关注

    关注

    2

    文章

    1773

    浏览量

    16857
  • 智算中心
    +关注

    关注

    0

    文章

    124

    浏览量

    2619
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为领衔,剑客入局!十万集群落地,国产力芯片强势崛起

    中国移动宣布,将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先的智基础设施,探索十万集群建设,全国产智能
    的头像 发表于 10-14 09:30 1.5w次阅读
    华为领衔,<b class='flag-5'>三</b>剑客入局!十万<b class='flag-5'>卡</b>智<b class='flag-5'>算</b>集群落地,国产<b class='flag-5'>算</b>力芯片强势崛起

    企业如何突破AI力困局?2026 年异构力管理平台推荐

    时代的管理困局 “买了 GPU ,却用不起来”——这是当下许多企业 IT 负责人的真实困扰。 随着生成式 AI 技术的快速普及,企业力需求呈指数级增长。据 IDC 数据,2024 年中国
    的头像 发表于 05-20 12:53 76次阅读

    摩尔线程发布“云边端”全栈智矩阵,开启物智能新纪元

    5月18日,摩尔线程在北京举办主题为 “词元时代物智能” 的年度产品发布会。在Agentic AI驱动词元(Token)需求呈指数级跃升的关键节点,物智能处于爆发前夜,力的基石
    的头像 发表于 05-19 09:32 7504次阅读
    摩尔线程发布“云边端”全栈智<b class='flag-5'>算</b>矩阵,开启<b class='flag-5'>万</b>物智能新纪元

    中国电信与阿里云共建粤港澳大湾区首个真武集群上线

    近日,由中国电信联合阿里云建设的粤港澳大湾区首个真武集群在韶关数据中心正式上线。
    的头像 发表于 04-15 10:47 573次阅读

    龙芯中科深度参与京津冀首个级国产智枢纽启动建设

    近日,汉腾科技投资建设的石家庄AI产业中心项目奠基仪式在石家庄高新区隆重举行,龙芯中科作为国产自主CPU领军企业参与仪式并共建智生态。该项目正式开启实质性建设,标志着京津冀首个级、全栈国产
    的头像 发表于 03-23 13:37 420次阅读

    摩尔线程与中国移动研究院等,联合发布128高密超节点参考设计,定义超大规模智底座新标准

    随着全球智集群规模跨入“时代”并向“十万”巅峰演进,传统单机八服务器在应对超万亿参数模
    发表于 03-17 08:40 893次阅读

    中国重汽2026年1月重出口销量超1.6

    近日,中国重汽再传捷报:1月份重出口销量超1.6辆,继去年9月首次突破1.5辆大关后,仅用4个月便再度刷新由自己保持的行业纪录,又一次创下历史新高,强势开启新年“开门红”。
    的头像 发表于 02-09 15:28 694次阅读

    中科曙光3套scaleX超集群落地国家超互联网郑州核心节点

    2月5日,由中科曙光提供的3套超集群系统在国家超互联网郑州核心节点同时上线试运行,成为全国首个实现3部署、且实际投入运营的最大国产
    的头像 发表于 02-09 10:32 820次阅读

    中国力芯片的拐点时刻

    作者|Taylor出品|芯片技术与工艺当OpenAI的GPT-5在得克萨斯州的机房中昼夜轰鸣,当Nvdia的H200芯片被炒至数十万美元仍一难求,中国力芯片产业正站在一个历史性拐点——这不是
    的头像 发表于 01-31 07:00 2216次阅读
    <b class='flag-5'>中国</b><b class='flag-5'>算</b>力芯片的拐点时刻

    中科曙光scaleX超集群重塑超大规模力基础设施

    在“人工智能+”行动深入推进的当下,力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX超集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超大规模
    的头像 发表于 01-30 15:43 1092次阅读

    中科曙光scaleX超集群背后的持续创新

    集群的发展浪潮正以超乎想象的速度袭来,未来五年,十万级的力集群将成为标配。但一个核心挑战也随之而来:当成千上的芯片紧密堆叠,如何将产生的巨额热量快速带走?
    的头像 发表于 01-19 14:49 847次阅读

    中科曙光scaleX超集群亮相中国制造“十四五”成就展

    12月29日,由中国国家博物馆与工业和信息化部新闻宣传中心联合主办的“筑基强国路—中国制造‘十四五’成就展”正式开幕。经专家评审委员会严格遴选,中科曙光scaleX超集群成功入选,
    的头像 发表于 12-30 15:49 732次阅读

    昆仑芯科技亮相2025中国力大会

    8月22日至24日,2025中国力大会在山西大同举办,本届大会以“网筑基 智引未来”为主题,聚焦力网络新趋势,共话力产业新未来。作为
    的头像 发表于 08-27 15:11 2121次阅读

    燧原科技国产集群通过中国信通院权威认证

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开集群服务推进方阵年中总交流会。会议期间,
    的头像 发表于 07-04 16:50 1421次阅读

    弘信电子旗下燧弘华创加入集群服务推进方阵

    近日,中国信息通信研究院在北京召开集群服务推进方阵(ICCPA)年中总结交流会。会上为第二批成员单位办法证书,发布一系列产业研究成果,并通过深度交流研讨,凝聚产业共识,规范产品
    的头像 发表于 07-03 15:43 1079次阅读