0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于无损数据中心的AI训练网络均衡技术实践

华为数据通信 来源:华为数据通信 作者:华为数据通信 2022-08-03 10:06 次阅读

2022年7月,在山东济南举行的2022中国算力大会上,紫金山实验室研究员高新平作了“基于无损数据中心AI训练网络均衡技术实践”的主题演讲。

紫金山实验室是江苏省和南京市共同推进建设的重大科技创新平台。紫金山实验室面向网络通信与安全领域国家重大战略需求,以引领全球信息科技发展方向、解决行业重大科技问题为使命,通过聚集全球高端人才,开展前瞻性、基础性研究,力图突破关键核心技术,开展重大示范应用,促进成果在国家经济建设中落地。紫金山实验室力图成为国家科技创新的重要力量,建成具有世界一流水平的战略科技创新基地。

紫金山实验室与华为依托紫金山实验室无损数据中心展开面向AI训练场景的网络均衡技术的联合创新,解决AI集群中网络负载不均而导致的AI训练任务性能下降的问题。

高新平研究员指出AI训练使用的集合通信算法,当前主流的有Ring算法、Tree算法和Halving Doubling算法等,在运行时通信流量都呈现出了共同的特征:周期性、流数量少、长连接,并行任务间有强实时同步性要求,通信效率取决于最慢的节点。同时,AI训练时,各节点之间传输的数据量大。以上这些流量特性使计算集群网络容易出现负载不均导致AI训练任务性能下降的问题。

现有网络均衡的主流技术大体分为三种,逐流ECMP均衡、基于子流flowlet均衡和逐包的负载分担均衡。逐流ECMP均衡技术,是当前最为常用的负载均衡算法,适用于流链接较多场景,它优势在于无乱序,劣势在于流数量较少时,例如AI训练场景下,存在HASH冲突问题,网络均衡效果不佳。基于子流flowlet均衡技术,它依赖于子流之间的时间间隔GAP值的正确配置来实现均衡,但全局路径级时延信息不可知、无法配置,且存在接收端侧乱序的问题。逐包的负载分担均衡技术,理论均衡度最好,但实际在接收端侧存在大量报文乱序问题,现实中几乎无使用案例。

发表“基于无损数据中心的AI训练网络均衡技术实践”主题演讲

在紫金山实验室无损数据中心AI训练集群中验证了华为创新的网络均衡技术NSLB(Network Service Load Balance)。基于华为交换芯片高精度telemetry能力,采集流量矩阵作为路由算法输入,用以控制AI流量的转发路径,避免负载不均,提升AI训练效率。

Ring算法场景,运行单个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率34%、比ECMP提升35%,AI训练集性能最高提升113.41%;

Ring算法场景,同时运行两个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率29%、比ECMP提升15.6%,AI训练集性能最高提升57.29%;

Tree算法场景下,运行单个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率13.8%、比ECMP提升1%,AI训练集性能最高提升6.50%;

Tree算法场景下,运行两个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率14%、比ECMP提升10.5%,AI训练集性能最高提升15.81%。

未来,紫金山实验将与华为在无损数据中心网络领域就网络新拓扑、DCN高性能互联等方向展开持续的联合创新,推动无损数据中心网络在低时延、高吞吐等方向进一步的发展,为高算力提供强有力的底座。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70004
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264043
  • 网络通信
    +关注

    关注

    4

    文章

    728

    浏览量

    29548

原文标题:2022中国算力大会 | 基于无损数据中心的AI训练网络均衡技术实践

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    一图看懂星河AI数据中心网络,全面释放AI时代算力

    华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络,以网强算,全面释放AI时代算力
    的头像 发表于 03-22 10:28 168次阅读
    一图看懂星河<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>,全面释放<b class='flag-5'>AI</b>时代算力

    是德科技推出AI数据中心测试平台旨在加速AI/ML网络验证和优化的创新

    2024年2月29日,是德科技(Keysight Technologies,Inc.)宣布,针对人工智能(AI)和机器学习(ML)基础设施生态系统,推出了 AI数据中心测试平台,旨在加速AI
    的头像 发表于 02-29 09:32 248次阅读
    是德科技推出<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>测试平台旨在加速<b class='flag-5'>AI</b>/ML<b class='flag-5'>网络</b>验证和优化的创新

    多业务光端机在数据中心的应用:提升网络效率的关键

    随着云计算、大数据技术的迅猛发展,数据中心已成为现代社会不可或缺的基础设施。数据中心内部网络的高效、稳定运行对于整个数据中心的性能至关重要
    的头像 发表于 02-23 14:09 232次阅读

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    Microchip CEO博文《AI将如何重新定义数据中心?》

    训练和运行的模型的大小,生成式AI的基础设施需求预计将比早期AI模型高出10到100倍。事实上,所有数据中心基础设施都受到这一趋势的影响,包括电力、HVAC、
    的头像 发表于 12-11 14:50 955次阅读
    Microchip CEO博文《<b class='flag-5'>AI</b>将如何重新定义<b class='flag-5'>数据中心</b>?》

    华为联合信通院成功立项《AI数据中心网络建设指导意见》

    近日,2023开放数据中心冬季全会(简称:ODCC 2023)在银川召开,华为联合信通院在新技术与测试组共同申报的《AI数据中心网络建设指导
    的头像 发表于 11-29 18:15 358次阅读

    适用于数据中心AI 时代的网络

    十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。 本文探讨了
    的头像 发表于 10-27 20:05 249次阅读
    适用于<b class='flag-5'>数据中心</b>和 <b class='flag-5'>AI</b> 时代的<b class='flag-5'>网络</b>

    HNS 2023 | 华为数据中心网络软硬实力全新升级,赋AI时代新动能

    、意大利、西班牙等多个国家和地区的100多位客户和伙伴共聚一堂,共同讨论未来数据中心网络的发展和技术创新。会上,华为全新升级CloudFabric3.0超融合数据中心
    的头像 发表于 10-27 19:35 258次阅读
    HNS 2023 | 华为<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>软硬实力全新升级,赋<b class='flag-5'>AI</b>时代新动能

    GITEX Global 2023 | 超融合数据中心网络,赋AI时代新动能

    王武伟发表了“超融合数据中心网络,赋AI时代新动能”的主题演讲,他指出,随着AI应用加速、云化架构不断升级,数据中心已经迈入了智能算力和通用
    的头像 发表于 10-17 23:30 275次阅读

    华为星河AI网络解决方案荣获AI训练场景最佳实践沙利文“全球技术领导奖”

    奖” (Global Technology Leadership Award) ,代表了沙利文对华为星河AI网络解决方案的技术创新能力的认可,彰显解决方案领先性。 华为数据通信产品线
    的头像 发表于 09-28 21:35 446次阅读
    华为星河<b class='flag-5'>AI</b><b class='flag-5'>网络</b>解决方案荣获<b class='flag-5'>AI</b><b class='flag-5'>训练</b>场景最佳<b class='flag-5'>实践</b>沙利文“全球<b class='flag-5'>技术</b>领导奖”

    华为全联接大会2023|超融合数据中心网络全新升级,赋AI时代新动能

    网络,赋予AI时代新动能。 华为数据通信产品线数据中心网络领域总裁 王武伟 发布超融合数据中心
    的头像 发表于 09-21 19:25 417次阅读

    ODCC 2023 | 超融合数据中心网络,赋AI时代新动能

    、专家学者、行业大咖的产业盛会上,华为数据通信产品线数据中心网络领域总裁王武伟发表了主题为《超融合数据中心网络,赋
    的头像 发表于 09-14 18:15 355次阅读

    ODCC 2023 | 华为数据中心网络荣膺2023开放数据中心大会三项大奖

    [中国,北京,2023年9月13日] 9月13日,华为数据中心网络在2023开放数据中心大会(简称:ODCC)上,斩获十周年携手同行奖、十周年卓越项目-无损
    的头像 发表于 09-13 19:35 455次阅读

    HNS 2023 | CloudFabric3.0,高运力400GE数据中心网络,赋AI时代新动能

    ,来自中国香港、印度尼西亚、菲律宾、马拉西亚、泰国、新加坡等多个国家和地区的200多位客户和伙伴共聚一堂,共同讨论未来数据中心网络的发展和技术创新。在会上,华为升级了CloudFabric3.0高运力400GE
    的头像 发表于 08-16 19:50 402次阅读