0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

未来智算中心:从单数据中心到多数据中心AI训练集群的演变趋势

SDNLAB 来源:SDNLAB 2024-11-13 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

去年以来,以ChatGPT为代表的大模型迅速红遍全球,展现出变革经济社会的巨大潜能。全球主流科技公司纷纷参与其中,推动智能算力需求高速增长。华为公司去年曾预测,到2025年,智能算力需求将增长100倍。

与之相呼应的,是蓬勃兴起的智算中心。从政策面看,我国2022年全面启动“东数西算”工程建设,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏建设8个国家算力枢纽,并规划了10个国家数据中心集群。从产业来看,运营商资本开支重心正在向算力偏移,并大规模采购智算设备。

智算中心的未来将如何演变?构建跨数据中心的AI训练集群是其中一个重要研究方向, “Region Scale Al”,已经成为业界关注的热点话题。

ODCC(开放数据中心委员会)携手华为公司,在2024年3月28日召开的ODCC春季全会-新技术与测试工作组会议上提出了“Region Scale AI”研究项目。华为2012网络技术实验室专家李映辉做了《Region Scale AI 场景与挑战》主题报告,介绍了AI大模型训练对算力需求不断增加的背景下,多数据中心联合训练的发展趋势与业界实践,深入分析了该场景下面临的组网和通信挑战,通过现网实验数据初步论证了AI集群跨AZ、跨Region联合训练的可行性,并给出了“Region Scale AI”研究项目的工作计划。李映辉因为此项目立项,荣获ODCC2024年春季全会MVP演讲嘉宾称号。

报告中,还介绍了该场景下的创新技术探索和研究工作,包括跨AZ的模型切分算法、集合通信算法,以及如何在长距网络上实现高吞吐传输、高性能加解密协议等等。同时指出,随着AI模型的增大以及芯片算力的增强,未来跨AZ训练对网络带宽的需求还会进一步增长,需要进一步考虑DCN和DCI网络架构的演进。

单集群AI训练存在极限,跨DC AI训练成趋势

业内人士都能感受到AI大模型发展的加速度。主流科技公司正在尽可能快地开发大模型并迭代新版本,以期在这个全新的产业中占据先机。大模型的训练参数在过去5年增长百倍,已经达到万亿级,预计未来5年参数将再增长百倍,达到百万亿量级!

智算能力也随之快速升级,目前单一数据中心已经达到万卡集群规模,以尽力满足几乎永无止境的AI计算需求。公开消息显示,华为昇腾AI集群2023年升级为万卡AI集群;蚂蚁基础大模型已具备万卡AI集群;中国电信宣布推出了首个国产单池万卡液冷算力集群。

AI集群是通过将多个计算机节点连接起来,形成协同工作的计算环境,从而为人工智能应用提供强大的计算能力和数据处理能力。据了解,其技术门槛随着训练量快速增长而不断抬高,绝非简单的算力设备堆砌。仅有少数几家厂商能够提供万卡AI集群,面对大模型参数的指数级增长,压力巨大。

然而,任何具体事物都存在极限,算力集群同样如此。单一AI集群不可能无限制扩张,会受到电力供应等因素影响,比如一些公司甚至考虑将数据中心建设在核电站附近。预计今后一个十万卡级别的AI集群,需要上百MW的电力供应。跨数据中心AI训练可以有效解决单集群供电不足问题,引起业界广泛关注。

此外,云计算有峰谷效应,单集群算力面临部署碎片化问题,难以承载云上大规模AI训练业务,导致资源利用率下降。采用多个数据中心组成的跨AZ、跨Region AI训练集群,可有效支撑十万卡甚至百万卡级别的训练任务,同时提高资源利用率,将是智算产业发展和探索的重要方向。

业界大型科技公司纷纷启动跨DC训练技术研究

面向云上AI资源碎片化问题,微软提出了“Singularity”框架,Planet-scale可抢占、可迁移、可弹性伸缩的AI任务调度。该框架可实现资源调度高弹性和可迁移性,增加云上AI资源利用率,但缺乏关注跨集群的训练性能。面向公有云AI训练网络异构问题,AWS提出了MiCS方案,能够充分利用异构网络带宽,通过减少较慢链路上的网络流量,摊销昂贵的全局梯度同步开销。为了解决AI训练集群造价昂贵问题,Meta提出去中心化异构训练。利用分布式、异构和低带宽互联的AI训练资源来训练基础大模型,降低训练成本。

Region Scale AI研究计划启动,已制定进度表

华为云技术专家杨永强近日在交流中向SDNLAB表示,数字经济是根本,东数西算是实施的第一步,华为云大力支持国家的东数西算战略,积极布局Regionless等技术创新,其中东数西训自不必说,而跨AZ、跨Region、线上线下跨集群的AI训练等高阶诉求也日益显现。参数交换会大幅提升跨Region的数据流量,弱网长距下的Regionless确定性高速传输需求迫切,有机会打造成东数西算的 “特高压”。

“Region Scale AI研究”项目旨在通过跨数据中心联合训练,突破单集群建设限制,灵活高效利用算力资源。未来几个月,ODCC将与业界针对Region Scale AI面临的技术挑战展开具体研究,探索技术方向,期望在年内形成研究成果,并在9月份ODDC年度大会进行成果发布。

0e147092-9063-11ef-a511-92fbcf53809c.png

数字经济时代,算力就是生产力。尤其是智能算力,在复杂的国际政经形势下,能否取得突破,关系到新型数字技术的产业竞争力。ODCC跨AZ训练立项已经走出了第一步,探索智算产业的发展路径。未来华为公司会继续在产业界开展分布式AI训练的联合创新、认证测试、标准制定等系列工作,也愿意与业界伙伴一起,赋能我国数字经济产业的高质量发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5528

    浏览量

    74662
  • AI
    AI
    +关注

    关注

    89

    文章

    38183

    浏览量

    296959

原文标题:AI训练集群从单DC扩展至多DC,智算中心的未来将如何演变?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI数据中心供电系统的发展现状和未来趋势

    AI数据中心作为数字时代的核心基础设施,承担着海量数据的存储、处理和传输任务,而供电系统是其稳定运行的“生命线”。随着云计算、大数据、人工智能等技术的快速发展,
    的头像 发表于 09-24 17:07 2855次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>供电系统的发展现状和<b class='flag-5'>未来</b><b class='flag-5'>趋势</b>

    华为星河AI数据中心网络亮相ODCC 2025

    以“拥抱AI变革 点燃网引擎”为主题的2025开放数据中心大会(以下简称“ODCC 2025”)在北京国际会议中心召开。在这场汇集了数据中心
    的头像 发表于 09-16 14:54 2393次阅读
    华为星河<b class='flag-5'>AI</b>高<b class='flag-5'>算</b>效<b class='flag-5'>数据中心</b>网络亮相ODCC 2025

    华为数字能源亮相2025开放数据中心大会

    AI变革,点燃网引擎”为主题,云集全球数据中心领域权威专家、头部企业代表、高校学者,聚焦电协同、液冷、边缘计算等热门话题,深度探讨和分享智
    的头像 发表于 09-11 13:50 855次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历传统架构向AI工厂与AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    客户的共同选择 超中心应用 :为某国家实验室提供800G OSFP SR8模块,构建E级超互联网络 AI训练
    发表于 08-13 16:38

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换
    发表于 07-29 15:02

    中型数据中心中的差分晶体振荡器应用与匹配方案

    同步模块等。 2. 高校/科研机构智能计算中心 应用背景: 服务于AI训练、大数据建模与图像处理的科研计算平台,要求高速网络与大容量数据同步
    发表于 07-01 16:33

    数据中心都在用的差分晶振,看完你就懂了

    数据中心
    FCom富士晶振
    发布于 :2025年05月30日 13:12:30

    利用NVIDIA技术构建数据中心到边缘的智慧医院解决方案

    全球领先的电子制造商正在利用 NVIDIA 技术,构建数据中心到边缘的智慧医院解决方案。
    的头像 发表于 05-22 09:50 741次阅读

    施耐德电气发布数据中心高密度AI集群部署解决方案

    在人工智能(AI)驱动的产业革命浪潮中,数据中心正迎来深刻变革。面对迅猛增长的人工智能力需求,部署高密度AI集群已成为
    的头像 发表于 04-19 16:54 1261次阅读
    施耐德电气发布<b class='flag-5'>数据中心</b>高密度<b class='flag-5'>AI</b><b class='flag-5'>集群</b>部署解决方案

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。大语言模型(LLM)训练到生成式AI应用,海量
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 854次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    。通过综合考虑带宽、距离和成本等因素,可提高数据中心整体效率并实现未来网络基础设施的升级和扩展。如需了解更多定制化布线方案和专业建议,请访问飞速(FS),探索全面的布线产品和解决方案。
    发表于 03-24 14:20

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的
    的头像 发表于 03-21 15:43 869次阅读

    数据中心发展与改造

    全球多数数据中心基础设施已超六年,能耗高而效率低。随着AI的发展,企业正致力于整合与提升能效的现代化改造。同时数据中心呈现规模化、高密化、绿色化发展趋势。19821800313 一、目
    的头像 发表于 02-28 16:50 744次阅读
    <b class='flag-5'>数据中心</b>发展与改造