0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

星河AI网络,大模型纪元的运力答案

脑极体 来源:脑极体 作者:脑极体 2023-09-27 09:28 次阅读

随着AI预训练大模型的价值不断显现,且模型规模愈发庞大。产学各界已经形成了这样一个共识:AI时代,算力就是生产力。

这一认知虽然正确,却并不全面。数字化系统有存、算、网三大支柱,AI技术也是如此。如果抛开存储和网络谈算力,那么大模型只能独木难支。尤其是与大模型适配的网络基础设施,一直以来都没有得到有效的重视。

面对动辄“万卡集训”“万里部署”“万亿参数”的AI大模型,网络运力是整个智能化体系中不容忽视的一环。其面临的挑战非常突出,也正在等待可以破局的答案。

wKgaomUS6umAKUdfAAM6hKYbZ9g601.jpg

(华为数据通信产品线总裁 王雷)

9月20日,华为全联接大会2023期间举办了“星河AI网络,加速行业智能化”为主题的数通峰会。各界代表共同探讨了AI网络技术的变革与发展趋势。会上,华为数据通信产品线总裁王雷正式发布星河AI网络解决方案。他表示,大模型让AI更聪明,但训练一个大模型的成本非常高,同时还要考虑AI人才的成本。因此,在行业智能化阶段,集中建设大算力集群,面向社会提供智算云服务,才能真正让人工智能深入千行万业。华为发布新一代星河AI网络解决方案,面向智能时代,打造超高吞吐、长稳可靠、弹性高并发的新型网络基础设施,助力AI普惠,加速行业智能化。

借此机会,我们一起了解大模型崛起,给智算数据中心带来的网络挑战,以及华为星河AI网络为什么是这些问题的最优解。

如果说,一个模型、一条数据、一个计算单元,都是AI时代的一道星光。那么只有把它们高效稳定地联接起来,才能组成智能世界的灿烂星河。

大模型爆发,隐藏的网络激流

我们知道,AI模型分为训练和推理部署两个阶段。伴随着预训练大模型的兴起,这两个阶段也分别发生了巨大的AI网络挑战。

首先是在大模型的训练阶段。伴随着模型规模与数据参数愈发庞大,大模型训练开始需要千卡甚至万卡规模的计算集群来完成。这也意味着大模型训练必然发生在具备AI算力的数据中心当中。

在目前阶段,智算数据中心的成本是非常高昂的。根据行业数据,每建设100P算力的集群,成本就要达到4亿人民币。以某国际知名大模型为例,其训练过程中每天的算力花费就要达到70万美元。

如果数据中心网络的联接能力不畅,造成大量算力资源折损在网络传输过程中,那么给数据中心与AI模型带来的损失是难以估量的。相反,如果同等算力规模下,集群训练效率更高,那么数据中心将获得巨大商机。而负载率等网络因素,直接决定了AI模型的训练效率。另一方面,由于AI算力集群的规模不断扩大,其复杂度也在相应增长,于是其故障发生概率也在提升。打造长稳可靠的集群网络,是数据中心提升投入产出比的重要支点。

在数据中心之外,AI模型的推理部署场景中,同样也可以看到AI网络的价值体现。大模型的推理部署主要依靠云服务,而云服务商必须在算力资源有限的情况下,尽量服务更大的客户,以此实现大模型的商业价值最大化。如此一来,用户越多整个云网结构就会越复杂。如何能够提供长期稳定的网络服务,成为了云计算服务商新的挑战。

除此之外,在AI推理部署的最后一公里,政企用户面临着网络质量提升的需求。在真实场景下,1%的链路丢包会导致TCP性能下降50倍,也就是100Mbps的宽带,实际能力不足2Mbps。因此,提升应用场景本身的网络能力,才可以保证AI算力顺畅流动,实现真正的普惠AI。

由此不难看出,在AI大模型的诞生、传输、应用全流程中,每个环节都面临着网络升级的挑战与需求。大模型时代的运力难题,亟待破局解题。

从星光到星河,智能时代的网络破局思路

大模型崛起带来的网络难题是一个多环节、全流程的挑战。因此,对应的破局思路也必须是一个系统性工程。

华为提出,面向智算云服务的新型网络基础设施,需要支持 “训练高效能”“算力不停歇”“普惠AI服务”。这三项能力,对应了AI大模型从训练到推理部署的全场景。不仅着眼于单一需求满足,单一技术的升级,而是全面推进AI网络迭代,正是华为数据通信带给行业独特的破局思路。

具体而言,AI时代的网络基础设施需要包含如下能力:

首先,在训练场景网络需要最大化发挥出AI计算集群的价值。通过打造具备超大规模联接能力的网络,实现AI大模型的训练高效能。

其次,为了保障AI任务的稳定可持续,需要打造长稳可靠的网络能力,保障月级训练不中断,同时要有秒级的稳定定界、定位和回复,尽可能降低训练中断时常。这就是算力不停歇的能力建设。

再次,AI推理部署过程中,要求网络具有弹性高并发的特质,可以智能编排海量用户流,提供最佳的AI落地体验,同时可以对抗网络劣化冲击,保障不同区域间AI算力顺畅流动,这也就实现了“普惠AI服务”的能力建设。

秉承这样的破局思路,华为最终带来了星河AI网络解决方案。它把散落的AI星光,基于强大运力联成一片星河。

星河AI网络,给大模型纪元一个运力答案

华为全联接大会2023的期间,华为分享了对以大算力、大存力、大运力加速AI大模型打造的发展愿景。新一代华为星河AI网络解决方案,就可以说是面向智能时代,华为为大模型带来的运力答案。

对于智能数据中心来说,华为星河AI网络是以网强算的最优解。

wKgZomUS6uqAYin_AATx46GR500258.jpg

其所具备的超高吞吐网络特质,可以面向智算中心的AI集群提供提升网络负载率,强化训练效率的重要价值。具体来说,星河AI网络智算交换机具有业界最高密400GE和800GE端口能力,仅2层交换网络就可以实现1万8000卡的无收敛集群组网,从而支持超万亿参数的大模型训练。组网层次一旦减少,就意味着数据中心能够节省了大量的光模块成本,同时提高对网络风险的可预测性,获得更加稳定的大模型训练能力。

星河AI网络可以支持网络级负载均衡NSLB,能够将负载率从50%提升到98%,相当于实现AI集群超频运行,继而将训练效率提升20%,达成高效能训练的预期。

wKgaomUS6uqACNBAAAVownNLQGk939.jpg

对于云服务厂商来说,星河AI网络可以提供稳定可靠的算力保障。

其能够在DCI算间互联场景,提供多路径智能调度等技术,自动识别、主动适应业务高峰流量的冲击,可以从百万数据流中识别大小流,合理分配到10万路径,从而实现网络0拥塞,弹性保障高并发的智算云服务。

对于政企用户来说,星河AI网络可以应对网络劣化问题,保障普惠化的AI算力。

其能够在DCA入算场景支持弹性抗劣化能力,采用Fillp技术优化TCP协议,可以在1%丢包率的情况下将带宽负载率从10%提升至60%,从而保障从都市圈到偏远地区的算力顺畅流动,加速AI服务的普惠应用。

如此一来,大模型从训练到部署各个环节的网络需求都被打通。从智算中心到千行万业,都有了以网强算的发展支点。

一个属于智能化的时代,一个由大模型开启的科技新纪元刚刚开始。星河AI网络,给智能时代写下了一个关于运力的答案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26485

    浏览量

    264112
  • 运力计算
    +关注

    关注

    0

    文章

    3

    浏览量

    1655
  • ai技术
    +关注

    关注

    1

    文章

    1146

    浏览量

    23711
  • 算力
    +关注

    关注

    1

    文章

    662

    浏览量

    14369
  • 大模型
    +关注

    关注

    2

    文章

    1555

    浏览量

    1148
收藏 人收藏

    评论

    相关推荐

    一图看懂星河AI数据中心网络,全面释放AI时代算力

    华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络,以网强算,全面释放AI时代算力
    的头像 发表于 03-22 10:28 172次阅读
    一图看懂<b class='flag-5'>星河</b><b class='flag-5'>AI</b>数据中心<b class='flag-5'>网络</b>,全面释放<b class='flag-5'>AI</b>时代算力

    使用cube-AI分析模型时报错的原因有哪些?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    发表于 03-14 07:09

    学习鸿蒙背后的价值?星河版开放如何学习?

    鸿蒙原生内核。 实现了AI框架、大模型、设计系统、编程框架、编程语言、编译器等全栈自研,有核心技术、全栈能力、底座和生态,是真正的操作系统,而非安卓套皮。关键是有了鸿蒙星河版本也就意味着国内市场有了
    发表于 02-22 20:55

    AI模型可以取代大学教育吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 16:27:52

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    华为星河AI网络亮相2023AI创新网络大会,斩获“璀璨技术奖”大奖

    副总裁李建高受邀参加,并发表主题为《华为星河AI网络,高运力释放AI时代高算力》的演讲。华为星河
    的头像 发表于 10-21 16:20 960次阅读
    华为<b class='flag-5'>星河</b><b class='flag-5'>AI</b><b class='flag-5'>网络</b>亮相2023<b class='flag-5'>AI</b>创新<b class='flag-5'>网络</b>大会,斩获“璀璨技术奖”大奖

    华为星河AI网络解决方案荣获AI训练场景最佳实践沙利文“全球技术领导奖”

    [中国,2023年9月27日]华为星河AI网络解决方案荣获全球著名增长咨询公司 Frost Sullivan 弗若斯特沙利文(以下简称“沙利文”)AI训练场景最佳实践 “2023全球技
    的头像 发表于 09-28 21:35 453次阅读
    华为<b class='flag-5'>星河</b><b class='flag-5'>AI</b><b class='flag-5'>网络</b>解决方案荣获<b class='flag-5'>AI</b>训练场景最佳实践沙利文“全球技术领导奖”

    华为全联接大会2023|华为发布业界首个网络模型,加速行业智能化

    华为全联接大会2023期间,华为重磅发布业界首个网络模型——星河AI网络模型,深度赋能iMa
    的头像 发表于 09-25 19:00 570次阅读
    华为全联接大会2023|华为发布业界首个<b class='flag-5'>网络</b>大<b class='flag-5'>模型</b>,加速行业智能化

    华为全联接大会2023|华为联合信通院发布星河AI网络白皮书,助力AI产业高速发展

    ”),白皮书从AI业务的发展趋势、网络架构和关键技术创新等三个方面展示星河AI网络在业界人工智能产业的技术领导力,旨在促进行业数智化转型、推
    的头像 发表于 09-20 20:55 614次阅读

    华为全联接大会2023|华为正式发布星河AI网络,加速行业智能化

    未来。会上,华为数据通信产品线总裁王雷正式发布星河AI网络解决方案,为加速行业智能化转型提供强劲引擎。 AI模型兴起,
    的头像 发表于 09-20 20:55 674次阅读

    算力大会2023 | 华为星河AI网络,高运力释放AI时代高算力

    新形势下,算力前沿技术未来的发展趋势。华为数据通信产品线数据中心网络领域副总裁张白发表了主题为《华为星河AI网络,高运力释放
    的头像 发表于 08-18 18:15 699次阅读

    HNS 2023 | CloudFabric3.0,高运力400GE数据中心网络,赋AI时代新动能

    [雅加达,印度尼西亚,2023年8月15日] 华为数通创新峰会2023期间,主题为“CloudFabric3.0,高运力400GE数据中心网络,赋AI时代新动能”的数据中心网络领域分论
    的头像 发表于 08-16 19:50 407次阅读

    模型应用:激发芯片设计新纪元

    的支持。蓬勃发展的大模型应用所带来的特殊性需求,正推动芯片设计行业迈向新纪元。众多顶级的半导体厂商纷纷为大模型应用而专门构建 AI 芯片,其高算力、高带宽、动辄千亿的晶体管数量成为大芯
    的头像 发表于 08-15 11:02 895次阅读
    大<b class='flag-5'>模型</b>应用:激发芯片设计新<b class='flag-5'>纪元</b>

    AI模型网络如何搭建

    2023年,以ChatGPT为代表的AIGC大模型全面崛起,成为了整个社会关注的焦点。   大模型表现出了强悍的自然语言理解能力,刷新了人们对AI的认知,也掀起了新一轮的“算力军备竞赛”。   大家
    的头像 发表于 06-27 11:28 1922次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>网络</b>如何搭建