0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

华为数据通信 来源:未知 2023-08-31 12:45 次阅读

wKgaomTwG_qATWR-AABYb2B4C6Q886.png

近年来,数据中心网络技术一直在不断发展,以满足日益增长的数据处理需求。从最初的传统结构,到软件定义网络(SDN),再到云原生网络(CN-NFV),数据中心网络技术已经走过了一个漫长的发展历程。AI时代,高性能计算需求正呈现爆发性增长态势,数据中心网络面临更为复杂的挑战,技术将会有哪些新的变化?是否有合适的解决之道?

wKgaomTwG_uAcCX4AAAAjgjvZ2U503.png

wKgaomTwG_uAZjFuABAUaoSDmqk775.png

华为数据通信产品线数据中心网络领域副总裁 张白

2023年8月23日-25日,全国高性能计算学术年会(CCF HPC China 2023)在青岛举办,CCF HPC China是高性能计算领域全球最具影响力的三大超算盛会之一,有着“中国超算风向标”的称号。本次大会上,华为数据通信产品线数据中心网络领域副总裁张白分享随着AI时代的到来,高性能计算对网络新的诉求,以及如何依靠星河AI网络解决方案去解决智能时代网络面临的新的挑战。

高性能计算需要什么样的互联网络?

当前,新一轮科技革命和产业变革加速演进,高性能计算正带领人类从“信息时代”走向“算力时代”。据中国电子信息产业发展研究院发布的《2022中国数字经济发展研究报告》显示,目前中国算力规模约占全球的27%,排名第二。我国算力进入高速发展阶段,到2025年总算力规模将达到300EFlops,同比2020年增长120%。

数据的爆炸性增长需要算力去解决,一方面需要更高效的算力结构,另一方面需要好的算力网络。高性能计算主要关注如何利用大规模计算的资源来解决科学、工程和商业问题。HPC应用程序通常需要使用并行计算,亿级、10亿级的超算,它的并行计算带给网络非常大的挑战。比如,并行通信、数据同步、大规模稳定运行等。同时,随着AI人工智能快速发展,HPC和AI结合的研究,HPC和AI应用程序通常需要处理大量的数据,并且在计算节点之间进行数据传输和存储,对网络的吞吐及负载均衡也提出了新的挑战。

以当前火爆的大模型来说,其对数据中心网络要求更为苛刻,可以说,大规模算力环境下的网络问题已成为当今数据中心所面临的“紧箍咒”之一。

官网显示,ChatGPT-4输入参数已经达到万亿,2.5年增长了570倍,1.5万张A100卡来支撑训练,大量服务器通过高速网络组成算力集群,共同完成训练任务。但是大规模不等于大带宽,AI大模型的训练场景中会存在负载不均衡的情况,而且设备网络规模越大,传统负载方式冲突会越严重。类似于要想提高车辆运行速度,在拓宽道路的基础上,还需要解决堵车的难题。大规模的网络不仅让业务调优复杂,后期运维也是雪上加霜,无法采用传统手段运维,据统计50%的迭代过程会被迫中断,定位时长平均1天以上。由此可见,AI训练对于网络的诉求可以用三个词来归纳:大规模,高吞吐,高可靠。

如何释放高性能计算100%算力?

加大高性能计算供给,必须增加算力网络可靠性。自2020年至今,大模型引领AI进入新的发展阶段,但大模型训练是个复杂的系统工程,网络基础设施正是长稳训练的关键之一。对于用户来说,其需要投入大量的资金和人才战略来施行其智能化战略,要怎样才能进行数据中心的创新,建立其符合未来需求的数据中心网络呢?

针对当前业界火爆的AI大模型,华为在2023CCF全国高性能计算学术年会(CCF HPC China 2023)上带来星河AI网络解决方案,提供“运得多、运得快,运得稳”的高运力数据中心网络,为客户提供大规模、高吞吐、高可靠的网络建设。

AI场景下对网络的第一要求是大规模,适配万卡集群是网络最基本的要求。华为采用业界最高密200/400GE交换机,匹配大模型训练基本硬件算力诉求,支持超大带宽组网,支持万亿参数量,规模可以达到IB的2-4倍。

网络的另一个要求是高吞吐,面对大规模网络采用算网一体化的方式部署,效率可以提升10倍以上。在AI场景中网络时延不是关键指标,而网络吞吐才是业务性能的关键因素,华为独创AI智能加速器,提高网络吞吐,训练效率提升20%。

高可靠同样是客户对网络的重要要求,华为采用智能化运维的方式来保证训练实时可视分钟级识别慢主机,保证训练的过程不中断。通过采用网络的控制器,包括网络以及计算强强联手,实现“算网一体的融合”,最终实现算力网络“运得多,运得快,运得稳”的目标,从而实现算力100%释放。

进入AI时代,数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变,计算、存储、网络等这些IT基础设施的核心组成部分,正在融入更多的AI元素。企业如果想要打造未来型数据中心,就必须寻找优秀的技术合作伙伴,致力于提供一套更好的网络基础设施。华为星河AI网络解决方案通过构建支持AI业务的网络,实现从大型模型训练到推理的全过程。目前,华为星河AI网络解决方案已在成全球100+企业部署商用。

如何打造面向未来的AI 网络?

到2030年,全球联接数预计将达到2000亿,数据中心流量10年增长100倍,IPv6地址渗透率将达到90%,AI算力将增长500倍。当前及未来的数据中心将如何应对这些趋势和发展要求?这就需要构建一个立体超宽、满足确定性时延的智能原生AI网络。在华为看来,AI网络的所有技术手段,都需要以业务为本,核心指标就是减少模型的训练时间。

首先,大模型需要规模算力,需要非常大的GPU集群。而把大规模的GPU集群连起来,需要大规模的网络。对于数据中心网络而言,大规模网络本身不是问题,更重要的是要考量建网的成本。华为主张采用大容量的交换设备组网降低网络的层次,由原来的三层合适组网变成两层宽河组网,从而来降低组网的成本。

其次,大规模的集群只是把AI物理服务器物理上连接在一起,要发挥效果还需要释放集群算力。网络在提高集群的加速比上需要发挥更加关键的作用。

最后,AI训练的本质是并行计算,有典型的木桶效应,水桶的盛水量是由几块木板中最短的一块决定的。一个环节出问题,会拉慢整个系统甚至让整个系统瘫痪。网络需要尽可能多的保障服务器之间的连通性,对网络的高可靠需求更高。未来网络要提高集群的整体可用性,做到在99%的情况下都不会因为网络导致训练中断。

在过去20年,网络技术获得了长足发展——2000年开始的ALL IP技术推动了互联网的大规模应用,2010年开始的All Cloud技术驱动了企业IT基础设施的大规模云化。而今天,AI浪潮正扑面而来,持续演进的AI对网络的需求将会处于指数级增长的态势,网络也需要全面拥抱人工智能时代。在这个过程中,华为将继续携手伙伴开放合作与持续创新,在算力领域的发展和应用中作出更大的贡献。

wKgaomTwG_yANRmPAAEQIydIJUA826.png

wKgaomTwG_yANHPHAABH79rerUY833.gif 点击“阅读原文”,了解更多华为数据通信资讯!


原文标题:转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    215

    文章

    33624

    浏览量

    247158

原文标题:转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    性能领先|忆联×新华三,打造超融合架构下的高性能存储方案

    为助力企业用户构建超融合架构的现代化数据中心,满足业务发展需求,忆联联合新华三集团在超融合架构下打造高性能存储方案,以此提高数据中心的管理效率和资源利用率。一、背景介绍超融合架构是通过
    的头像 发表于 12-27 18:21 368次阅读
    <b class='flag-5'>性能</b>领先|忆联×新华三,打造超<b class='flag-5'>融合</b>架构下的<b class='flag-5'>高性能</b>存储方案

    Achronix提供由FPGA赋能的智能网卡(SmartNIC)解决方案来打破智能网络性能极限

    随着人工智能/机器学习(AI/ML)和其他复杂的、以数据为中心的工作负载被广泛部署,市场对高性能计算的需求持续飙升,对高性能
    的头像 发表于 12-21 14:52 398次阅读

    Achronix提供由FPGA赋能的智能网卡来打破智能网络性能极限

    随着人工智能/机器学习(AI/ML)和其他复杂的、以数据为中心的工作负载被广泛部署,市场对高性能计算的需求持续飙升,对高性能
    的头像 发表于 12-19 11:10 679次阅读

    态路小课堂丨InfiniBand与以太网:AI时代网络差异

    今年以来,InfiniBand因其在AI领域中的应用而备受瞩目。 InfiniBand介绍 InfiniBand (也称为“无限带宽”,缩写为IB)是一种高速网络技术,具有高性能、低延迟、可靠和灵活的数据传输功能,适用于要求高速
    的头像 发表于 11-29 18:16 413次阅读
    态路小课堂丨InfiniBand与以太网:<b class='flag-5'>AI</b><b class='flag-5'>时代</b>的<b class='flag-5'>网络</b>差异

    AI技术助力网络革新,让企业更智能

    AI技术正迅速渗透到各个企业领域,为企业带来了广泛的应用机会。在这个数字化时代AI技术正在改变我们看待和管理网络的方式,其中AI
    的头像 发表于 10-27 17:56 282次阅读
    <b class='flag-5'>AI</b>技术助力<b class='flag-5'>网络</b>革新,让企业更<b class='flag-5'>智能</b>

    华为星河AI网络亮相2023AI创新网络大会,斩获“璀璨技术奖”大奖

    [中国,北京,10月21日] 2023AI网络创新大会在北京举行。大会围绕AI网络互连架构、AI网络
    的头像 发表于 10-21 16:20 954次阅读
    华为星河<b class='flag-5'>AI</b><b class='flag-5'>网络</b>亮相2023<b class='flag-5'>AI</b>创新<b class='flag-5'>网络</b>大会,斩获“璀璨技术奖”大奖

    GITEX Global 2023 | 超融合数据中心网络,赋AI时代新动能

    王武伟发表了“超融合数据中心网络,赋AI时代新动能”的主题演讲,他指出,随着AI应用加速、云化架构不断升级,数据中心已经迈入了
    的头像 发表于 10-17 23:30 278次阅读

    华为全联接大会2023|超融合数据中心网络全新升级,赋AI时代新动能

    网络,赋予AI时代新动能。 华为数据通信产品线数据中心网络领域总裁 王武伟 发布超融合数据中心网络
    的头像 发表于 09-21 19:25 418次阅读

    无线传感器网络数据融合路由算法分析

    由于无线传感器网络中节点的能量十分有限,因此在设计各种网络协议时必须考虑节能。采用网内数据处理技术是降低能耗的重要手段,而数据融合与数据路由相结合是实现网内数据处理的重要方法l-3]。数据融合
    发表于 09-21 08:29

    清华系高性能算力网络提供商基流科技完成种子轮融资

    基流科技主要致力于构建大模型ai时代的基础高性能计算网络运营企业,致力于打造大模型ai
    的头像 发表于 09-18 11:28 1178次阅读

    ODCC 2023 | 超融合数据中心网络,赋AI时代新动能

    、专家学者、行业大咖的产业盛会上,华为数据通信产品线数据中心网络领域总裁王武伟发表了主题为《超融合数据中心网络,赋AI时代新动能》的主论坛演
    的头像 发表于 09-14 18:15 355次阅读

    具有小浮点的高性能神经网络

    电子发烧友网站提供《具有小浮点的高性能神经网络.pdf》资料免费下载
    发表于 09-13 17:07 0次下载
    具有小浮点的<b class='flag-5'>高性能</b>神经<b class='flag-5'>网络</b>

    面向高性能和可扩展计算系统的IBM b-type网络

    电子发烧友网站提供《面向高性能和可扩展计算系统的IBM b-type网络.pdf》资料免费下载
    发表于 08-28 14:39 0次下载
    面向<b class='flag-5'>高性能</b>和可扩展<b class='flag-5'>计算</b>系统的IBM b-type<b class='flag-5'>网络</b>

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    平台通过软硬件深度协同,较经典方案提升超 8 成性能,支持运行 170 余个主流 AI 模型,推动 RISC-V 进入高性能 AI 应用时代
    发表于 08-26 14:14

    智能网卡简介及其在高性能计算中的作用

    最先进的人工智能模型在不到五年的时间内经历了超过 5,000 倍的规模扩展。这些 AI 模型严重依赖复杂的计算和大量内存来实现高性能深度神经网络
    发表于 07-28 10:10