0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

华为数据通信 来源:未知 2023-08-31 12:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomTwG_qATWR-AABYb2B4C6Q886.png

近年来,数据中心网络技术一直在不断发展,以满足日益增长的数据处理需求。从最初的传统结构,到软件定义网络(SDN),再到云原生网络(CN-NFV),数据中心网络技术已经走过了一个漫长的发展历程。AI时代,高性能计算需求正呈现爆发性增长态势,数据中心网络面临更为复杂的挑战,技术将会有哪些新的变化?是否有合适的解决之道?

wKgaomTwG_uAcCX4AAAAjgjvZ2U503.png

wKgaomTwG_uAZjFuABAUaoSDmqk775.png

华为数据通信产品线数据中心网络领域副总裁 张白

2023年8月23日-25日,全国高性能计算学术年会(CCF HPC China 2023)在青岛举办,CCF HPC China是高性能计算领域全球最具影响力的三大超算盛会之一,有着“中国超算风向标”的称号。本次大会上,华为数据通信产品线数据中心网络领域副总裁张白分享随着AI时代的到来,高性能计算对网络新的诉求,以及如何依靠星河AI网络解决方案去解决智能时代网络面临的新的挑战。

高性能计算需要什么样的互联网络?

当前,新一轮科技革命和产业变革加速演进,高性能计算正带领人类从“信息时代”走向“算力时代”。据中国电子信息产业发展研究院发布的《2022中国数字经济发展研究报告》显示,目前中国算力规模约占全球的27%,排名第二。我国算力进入高速发展阶段,到2025年总算力规模将达到300EFlops,同比2020年增长120%。

数据的爆炸性增长需要算力去解决,一方面需要更高效的算力结构,另一方面需要好的算力网络。高性能计算主要关注如何利用大规模计算的资源来解决科学、工程和商业问题。HPC应用程序通常需要使用并行计算,亿级、10亿级的超算,它的并行计算带给网络非常大的挑战。比如,并行通信、数据同步、大规模稳定运行等。同时,随着AI人工智能快速发展,HPC和AI结合的研究,HPC和AI应用程序通常需要处理大量的数据,并且在计算节点之间进行数据传输和存储,对网络的吞吐及负载均衡也提出了新的挑战。

以当前火爆的大模型来说,其对数据中心网络要求更为苛刻,可以说,大规模算力环境下的网络问题已成为当今数据中心所面临的“紧箍咒”之一。

官网显示,ChatGPT-4输入参数已经达到万亿,2.5年增长了570倍,1.5万张A100卡来支撑训练,大量服务器通过高速网络组成算力集群,共同完成训练任务。但是大规模不等于大带宽,AI大模型的训练场景中会存在负载不均衡的情况,而且设备网络规模越大,传统负载方式冲突会越严重。类似于要想提高车辆运行速度,在拓宽道路的基础上,还需要解决堵车的难题。大规模的网络不仅让业务调优复杂,后期运维也是雪上加霜,无法采用传统手段运维,据统计50%的迭代过程会被迫中断,定位时长平均1天以上。由此可见,AI训练对于网络的诉求可以用三个词来归纳:大规模,高吞吐,高可靠。

如何释放高性能计算100%算力?

加大高性能计算供给,必须增加算力网络可靠性。自2020年至今,大模型引领AI进入新的发展阶段,但大模型训练是个复杂的系统工程,网络基础设施正是长稳训练的关键之一。对于用户来说,其需要投入大量的资金和人才战略来施行其智能化战略,要怎样才能进行数据中心的创新,建立其符合未来需求的数据中心网络呢?

针对当前业界火爆的AI大模型,华为在2023CCF全国高性能计算学术年会(CCF HPC China 2023)上带来星河AI网络解决方案,提供“运得多、运得快,运得稳”的高运力数据中心网络,为客户提供大规模、高吞吐、高可靠的网络建设。

AI场景下对网络的第一要求是大规模,适配万卡集群是网络最基本的要求。华为采用业界最高密200/400GE交换机,匹配大模型训练基本硬件算力诉求,支持超大带宽组网,支持万亿参数量,规模可以达到IB的2-4倍。

网络的另一个要求是高吞吐,面对大规模网络采用算网一体化的方式部署,效率可以提升10倍以上。在AI场景中网络时延不是关键指标,而网络吞吐才是业务性能的关键因素,华为独创AI智能加速器,提高网络吞吐,训练效率提升20%。

高可靠同样是客户对网络的重要要求,华为采用智能化运维的方式来保证训练实时可视分钟级识别慢主机,保证训练的过程不中断。通过采用网络的控制器,包括网络以及计算强强联手,实现“算网一体的融合”,最终实现算力网络“运得多,运得快,运得稳”的目标,从而实现算力100%释放。

进入AI时代,数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变,计算、存储、网络等这些IT基础设施的核心组成部分,正在融入更多的AI元素。企业如果想要打造未来型数据中心,就必须寻找优秀的技术合作伙伴,致力于提供一套更好的网络基础设施。华为星河AI网络解决方案通过构建支持AI业务的网络,实现从大型模型训练到推理的全过程。目前,华为星河AI网络解决方案已在成全球100+企业部署商用。

如何打造面向未来的AI 网络?

到2030年,全球联接数预计将达到2000亿,数据中心流量10年增长100倍,IPv6地址渗透率将达到90%,AI算力将增长500倍。当前及未来的数据中心将如何应对这些趋势和发展要求?这就需要构建一个立体超宽、满足确定性时延的智能原生AI网络。在华为看来,AI网络的所有技术手段,都需要以业务为本,核心指标就是减少模型的训练时间。

首先,大模型需要规模算力,需要非常大的GPU集群。而把大规模的GPU集群连起来,需要大规模的网络。对于数据中心网络而言,大规模网络本身不是问题,更重要的是要考量建网的成本。华为主张采用大容量的交换设备组网降低网络的层次,由原来的三层合适组网变成两层宽河组网,从而来降低组网的成本。

其次,大规模的集群只是把AI物理服务器物理上连接在一起,要发挥效果还需要释放集群算力。网络在提高集群的加速比上需要发挥更加关键的作用。

最后,AI训练的本质是并行计算,有典型的木桶效应,水桶的盛水量是由几块木板中最短的一块决定的。一个环节出问题,会拉慢整个系统甚至让整个系统瘫痪。网络需要尽可能多的保障服务器之间的连通性,对网络的高可靠需求更高。未来网络要提高集群的整体可用性,做到在99%的情况下都不会因为网络导致训练中断。

在过去20年,网络技术获得了长足发展——2000年开始的ALL IP技术推动了互联网的大规模应用,2010年开始的All Cloud技术驱动了企业IT基础设施的大规模云化。而今天,AI浪潮正扑面而来,持续演进的AI对网络的需求将会处于指数级增长的态势,网络也需要全面拥抱人工智能时代。在这个过程中,华为将继续携手伙伴开放合作与持续创新,在算力领域的发展和应用中作出更大的贡献。

wKgaomTwG_yANRmPAAEQIydIJUA826.png

wKgaomTwG_yANHPHAABH79rerUY833.gif 点击“阅读原文”,了解更多华为数据通信资讯!


原文标题:转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36196

    浏览量

    262700

原文标题:转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云网融合时代:企业智能网络架构的技术演进与落地实践

    前言企业数字化转型进程中,多云部署、跨地域协同、边缘业务爆发、AI应用规模化落地,已成为IT架构的新常态。传统以物理专线为核心的广域网架构,在成本、灵活性、智能性上的短板日益凸显,云网融合作为新一代
    的头像 发表于 03-31 14:06 1690次阅读
    云网<b class='flag-5'>融合时代</b>:企业<b class='flag-5'>智能</b><b class='flag-5'>网络</b>架构的技术演进与落地实践

    华为星河AI融合SASE解决方案如何重塑网络安全新范式

    智能化时代飞速发展,数字边界不断延伸。我们正处于网络安全与智能技术相互交融的历史时刻,网络安全正迎来前所未有的机遇与挑战。赋予安全以智能,已
    的头像 发表于 03-10 10:21 348次阅读

    星融元完成新一轮融资,携手产业资本加速AI网络市场布局

    星融元完成新一轮融资,由厦门联合、湖南财信共同投资。公司作为AI网络架构领先者,构建“云网融合、开放解耦”技术体系,提供全栈网络解决方案。其AI
    的头像 发表于 01-23 16:10 1241次阅读
    星融元完成新一轮融资,携手产业资本加速<b class='flag-5'>AI</b><b class='flag-5'>网络</b>市场布局

    RK3576驱动高端显控系统升级:多屏拼控与AI视觉融合解决方案

    控系统的性能与能效。 核心芯片 RK3576:高端显控系统的性能担当瑞芯微 RK3576 作为高性能 AIoT 处理器,采用多核 CPU 架构与 6Tops NPU,在并行计算与视频处
    发表于 11-21 17:51

    GlobalData与华为探讨AI网络基础设施的机遇与挑战

    GlobalData 研究总监Emir Halilovic 与华为数据通信产品线NCE数据通信领域总裁王辉共同探讨了人工智能AI)对网络基础设施带来的机遇(高性能
    的头像 发表于 10-14 14:24 781次阅读

    华为星河AI广域网助力Lounea构筑新一代超宽融合网络

    AI数字浪潮席卷全球的今天,芬兰Lounea正加速建设覆盖全国性网络基础设施。在华为数据通信创新峰会2025(欧洲站)上,公司CTO Riku Päärni发表了题为“星河AI广域网,重塑
    的头像 发表于 10-13 09:47 761次阅读

    AI赋能6G与卫星通信:开启智能天网新时代

    :6G+AI+卫星将支持全息通信,实现真正的\"面对面\"交流 数字孪生卫星:为每颗卫星创建精确的数字模型,用于预测和优化性能 开启智能天网新时代
    发表于 10-11 16:01

    陶氏化学借助AI技术重塑网络安全

    拥有125年历史的陶氏化学,正借助AI技术重塑网络安全。在与微软的合作中,陶氏将其安全运营中心(CSOC)全面接入智能Microsoft Security Copilot副驾驶(国际版
    的头像 发表于 10-10 09:21 1002次阅读

    华为5G-A网络构筑移动AI时代的坚实底座

    解决方案围绕全频段、全覆盖、全场景、全数字化、全智能五大方向,持续深化5G-A与AI融合,助力无线产业在移动AI时代的高质量发展。
    的头像 发表于 09-25 11:22 1008次阅读

    华为AI-Centric星河AI网络解决方案全面升级

    在华为全联接大会2025“AI时代,星河AI网络智联新启航”峰会上,华为数据通信产品线总裁王雷正式发布全面升级的AI-Centric星河
    的头像 发表于 09-20 09:41 1491次阅读

    AI网络国产化破局未来可期

    近日,Hot Chips 2025大会聚焦高性能计算网络技术的突破性进展,国际厂商密集发布新一代网络产品,折射出AI大模型浪潮下对算力&
    的头像 发表于 09-18 15:19 1285次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>网络</b>国产化破局未来可期

    华为Net5.5G助力IP网络迈入智能时代

    和Net5.5G新代际特征。他表示,华为面向Net5.5G代际将持续在WANDCNCampus引领AI网络融合的技术创新和标准化,助力全行业加速迈向智能化时代
    的头像 发表于 08-22 16:57 2363次阅读

    AI 边缘计算网关:开启智能时代的钥匙​—龙兴物联

    顺畅地通向云端,实现设备与云端之间高效的数据传输与交互。通过融合先进的边缘计算和人工智能技术,AI 边缘计算网关能够在靠近数据源的
    发表于 08-09 16:40

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了
    发表于 07-16 15:29

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群(HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与
    的头像 发表于 06-23 13:07 1429次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群在<b class='flag-5'>AI</b>领域的应用前景