0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI大模型时代需要什么样的网络?

jf_WZTOguxH 来源:AI前线 2023-07-14 14:46 次阅读

ChatGPT 的爆火掀起了 AI 大模型狂飙热潮,随着国内外原来越多的 AI 大模型应用落地,AI 算力需求快速增加。在算力的背后,网络起到至关重要的作用——网络性能决定 GPU 集群算力,网络可用性决定 GPU 集群算力稳定性。因此,高性能与高可用的网络对 AI 大模型的构建尤为重要。

6 月 26 日,腾讯云举办《面向 AI 大模型的高性能网络》沟通会,首次对外完整披露自研星脉高性能计算网络,并梳理了腾讯的网络架构演进历程。会后,腾讯云副总裁王亚晨、腾讯云数据中心网络总监李翔接受了 InfoQ 在内的媒体采访,进一步分享面向 AI 大模型的高性能网络是如何构建的。

据了解,星脉网络具备业界最高的 3.2T 通信带宽,可提升 40% 的 GPU 利用率、节省 30%~60% 的模型训练成本,进而能为 AI 大模型带来 10 倍通信性能提升。基于腾讯云新一代算力集群,可支持 10 万卡的超大计算规模。

王亚晨表示:“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放 AI 潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”

AI 大模型时代需要什么样的网络? 大带宽、高利用率、无损

AI 大模型训练需要海量算力的支撑,而这些算力无法由单台服务器提供,需要由大量的服务器作为节点,通过高速网络组成集群,服务器之间互联互通,相互协作完成任务。有数据显示,GPT-3.5 的训练使用了微软专门建设的 AI 计算系统,由 1 万个 V100 GPU 组成的高性能网络集群,总算力消耗约 3640 PF-days (假如每秒计算一千万亿次,需要计算 3640 天)。

如此大规模、长时间的 GPU 集群训练任务,仅仅是单次计算迭代内梯度同步需要的通信量就达到了百 GB 量级,此外还有各种并行模式、加速框架引入的通信需求。如果网络的带宽不够大、延时长,不仅会让算力边际递减,还增加了大模型训练的时间成本。因此,大带宽、高利用率、无损的高性能网络至关重要。

王亚晨表示,大模型运算实际上是一个通信过程,一部分 GPU 进行运算,运算完成后还需要与其他 GPU 之间交互数据。通信带宽越大,数据传输越快,GPU 利用率越高,等待时间就会越少。此外,大模型训练对时延和丢包要求也比较高。“假设有很多 GPU 运算同一个任务,因为有木桶效应存在,一定要等花费时间最长的 GPU 运算完之后,才能完成一个运算任务。AI 对于时延的敏感度比 CPU 高很多,所以一定要把木桶效应消除,把时延控制在非常短的水平,让 GPU 的效率更高。此外,和带宽、时延相比,丢包对 GPU 效率的影响更加明显,一旦丢包就需要重传,重新进行 GPU 的训练。”

王亚晨认为,大集群不等于大算力。集群训练会引入额外的通信开销,导致 N 个 GPU 算力达不到单个 GPU 算力的 N 倍。这也意味着,一味地增加 GPU 卡或计算节点,并不能线性地提升算力收益。“GPU 利用率的合理水平大概是在 60% 左右。”王亚晨说道。

要想通过集群发挥出更强的算力,计算节点需协同工作并共享计算结果,需要优化服务器之间的通信、拓扑、模型并行、流水并行等底层问题。高速、低延迟的网络连接可以缩短两个节点之间同步梯度信息的时间,使得整个训练过程变得更快。同时,降低不必要的计算资源消耗,使计算节点能够专注于运行训练任务。

AI 大模型驱动 DCN 网络代际演进

据介绍,腾讯网络主要提供的功能是“连接”,一是连接用户到机器的流量,二是连接机器到机器的流量。目前,腾讯的网络架构主要分三大部分:

ECN 架构,表示不同类型的客户通过多种网络方式接入云上虚拟网络,这一块主要是外联架构,主要包括终端用户、企业用户、物联网用户分别通过运营商专线、企业专线、边缘网关接入腾讯数据中心。

DCI 网络,主要是数据中心之间的互联,实现一个城市多数据中心或者多个城市的数据中心进行互联,底层会用到光纤传输。

DCN,主要是数据中心的网络,这部分的任务是实现数据中心里面超过 10 万或者几十万服务器进行无阻塞的连接。

腾讯通过 ECN、DCI、DCN 等网络,把用户和业务服务器连接起来,并且把数百万台服务器连接起来。

王亚晨表示,AI 大模型的发展驱动了 DCN 网络代际演进。

在移动互联网时代,腾讯的业务以 to C 为主,数据中心网络服务器规模并不大,当时主要解决的是数据中心、服务器之间的互联,以及运营商之间的互联。所以那时数据中心流量特征很明显,基本都是外部访问的流量,对网络的时延和丢包要求也不高。

随着移动互联网以及云的快速发展,数据中心网络流量模型发生了变化,除了有从运营商访问过来的南北向流量,也有数据中心之间互访的东西向流量,对网络的时延要求也是从前的 10 倍。为了降低设备故障对网络的影响,腾讯采用多平面设计,并引入了控制器的概念,把转发面和控制面进行分离。用定制的设备、多平面以及 SDN 的路由器控制,将故障的解决时间控制在一分钟之内。

在 AI 大模型时代,数据中心网络流量模型进一步发生变化。“到了 AI 大模型时代,我们发现东西向流量比以前大了很多,尤其是 AI 在训练的时候,几乎没有什么南北向流量。我们预计如果大模型逐渐成熟,明年大模型数据中心流量南北向流量可能会有所增长,因为推理需求会上来。但就现在而言,东西向流量需求非常大,我们 DCN 网络设计会把南北向流量和东西向流量分开,以前是耦合在一张网络里,基础网络都是一套交换机,只是分不同层。但到了 GPU 时代,我们需要专门为 GPU 构建一层高性能网络。”王亚晨说道。

基于此,腾讯打造出了高性能网络星脉:具备业界最高的 3.2T 通信带宽,能提升 40% 的 GPU 利用率,节省 30%~60% 的模型训练成本,为 AI 大模型带来 10 倍通信性能提升。基于腾讯云新一代算力集群 HCC,可支持 10 万卡的超大计算规模。

高性能网络星脉是如何设计的?

据李翔介绍,腾讯网络大概由大大小小几十个组件组成,数据中心网络是其中最大、历史最悠久的一个。在 PC 和移动互联网时代,数据中心网络主要解决的是规模问题。而进入算力时代,业务对算力网络有了更高的要求。

“举个例子,如果说过去两个阶段数据中心网络是‘村村通’,解决大规模部署和广覆盖的问题,那么在算力时代,数据中心网络就是全自动化、无拥塞的高速公路。”李翔表示,AI 大模型对互联有比较高的要求,几千张 GPU 协同计算,如果出现任何一个丢包阻塞,那么全部都要降速,这种降速 1 分钟就有几十万的损失。

基于此,腾讯云开始搭建算力集群。4 月 14 日,腾讯云正式发布面向大模型训练的新一代 HCC(High-Performance Computing Cluster)高性能计算集群。网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。腾讯自研的星脉网络,为新一代集群带来了业界最高的 3.2T 的超高通信带宽。

据介绍,腾讯对大模型集群网络做了以下几大优化:

(1)采用高性能 RDMA 网络

RDMA(GPU 之间直接通信),是一种高性能、低延迟的网络通信技术,主要用于数据中心高性能计算,允许计算节点之间直接通过 GPU 进行数据传输,无需操作系统内核和 CPU 的参与。这种数据传输方法可以显著提高吞吐量并降低延迟,从而使计算节点之间的通信更加高效。

过往的数据中心 VPC 网络,在源服务器与目标服务器之间传输时,需要经过多层协议栈的处理,过往数据每一层都会产生延迟,而腾讯自研的星脉 RDMA 网络,可以让 GPU 之间直接进行数据通信。

打个比方,就像之前货物在运输途中需要多次分拣和打包,现在通过高速传送带、不经过中间环节,货物直接送到目的地

同时,由于星脉 RDMA 直接在 GPU 中传输数据,CPU 资源得以节省,从而提高计算节点的整体性能和效率。

(2)自研网络协议(TiTa)

在网络协议上,腾讯云通过自研 TiTa 协议,让数据交换不拥塞、时延低,使星脉网络可以实现 90% 负载 0 丢包。

网络协议是在计算节点之间传输数据的规则和标准,主要关注数据传输的控制方式,能改善网络连接性能、通信效率和延迟问题。

为了满足大型模型训练中的超低时延、无损和超大带宽要求,传统的网络协议由于其固有的设计与性能限制,无法满足这些需求,还需要对“交通规则”进行优化。

星脉网络采用的自研端网协同协议 TiTa,可提供更高的网络通信性能,特别是在满足大规模参数模型训练的需求方面。TiTa 协议内嵌拥塞控制算法,以实时监控网络状态并进行通信优化,使得数据传输更加流畅且延迟降低。

42297ab4-2208-11ee-962d-dac502259ad0.png

(3)定制化高性能集合通信库 TCCL

通信库在训练过程中负责管理计算节点间的数据通信。面对定制设计的高性能组网架构,业界开源的 GPU 集合通信库(比如 NCCL)并不能将网络的通信性能发挥到极致,从而影响大模型训练的集群效率。

为解决星脉网络的适配问题,腾讯云还为星脉定制了高性能集合通信库 TCCL(Tencent Collective Communication Library),相对业界开源集合通信库,可以提升 40% 左右的通信性能。

并在网卡设备管理、全局网络路由、拓扑感知亲和性调度、网络故障自动告警等方面融入了定制设计的解决方案。

(4)多轨道网络架构

星脉网络对通信流量做了基于多轨道的流量亲和性规划,使得集群通信效率达 80% 以上。

多轨道流量聚合架构将不同服务器上位于相同位置的网卡,都归属于同一 ToR switch;不同位置的网卡,归属于不同的 ToR switch。由于每个服务器有 8 张计算平面网卡,这样整个计算网络平面从物理上划分为 8 个独立并行的轨道平面。

在多轨道网络架构中,AI 训练产生的通信需求(AllReduce、All-to-All 等)可以用多个轨道并行传输加速,并且大部分流量都聚合在轨道内传输(只经过一级 ToR switch),小部分流量才会跨轨道传输(需要经过二级 switch),大幅减轻了大规模下的网络通信压力。

(5)异构网络自适应通信

大规模 AI 训练集群架构中,GPU 之间的通信实际上由多种形式的网络来承载的:机间网络(网卡 + 交换机)与机内网络(NVLink/NVSwitch 网络、PCIe 总线网络)。

星脉网络将机间、机内两种网络同时利用起来,达成异构网络之间的联合通信优化,使大规模 All-to-All 通信在业务典型 message size 下的传输性能提升达 30%。

4258957e-2208-11ee-962d-dac502259ad0.png

(6)自研全栈网络运营系统

为确保星脉网络的高可用性,腾讯云还自研了端到端全栈网络运营系统,先是实现了端网部署一体化以及一键故障定位,提升高性能网络的易用性,进而通过精细化监控与自愈手段,提升可用性,为极致性能的星脉网络提供全方位运营保障。

具体应用成效方面,大模型训练系统的整体部署时间可以从 19 天缩减至 4.5 天,保证基础配置 100% 准确,并让系统故障的排查时间由天级降低至每分钟级,故障的自愈时间缩短到秒级。

写在最后

AI 大模型时代给网络带来了新的机遇与挑战。随着 GPU 算力的持续提升,GPU 集群网络架构也需要不断迭代升级。

王亚晨表示,未来,星脉网络将围绕算力网卡、高效转发、在网计算、高速互联四大方向持续迭代。“这四个迭代方向也与我们面临的痛点相关,目前我们重点发力算力网卡和高效转发这两大方向。其中,算力网卡需要与交换机做配合,实现更优的、类似主动预测控制的机制,让网络更不容易拥塞;高效转发方面,之后可能会变成定长包的转发机制,这样也能保证整体效率。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
  • 服务器
    +关注

    关注

    12

    文章

    8124

    浏览量

    82538
  • 大模型
    +关注

    关注

    2

    文章

    1538

    浏览量

    1135
  • AI大模型
    +关注

    关注

    0

    文章

    200

    浏览量

    94

原文标题:AI 大模型狂飙的背后:高性能计算网络是如何“织”成的?

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在训练一只聪明的AI小动物解决实际问题,通过构建神经网络模型并进行推理,让电脑也能像人一根据输入信息做出决策。 在上述示例中,我创建了一个简单的深度学习
    发表于 03-19 11:18

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    曦儿:冬至快乐 AI:谢谢,今天冬至,你是打算吃汤圆还是吃饺子呢,嗯,不管是吃什么,都祝你幸福,节日快乐 不管你是同意与否,时代的车轮正在滚滚而来,并且终将碾压旧时代,就像是之前的蒸汽机器
    发表于 12-22 10:18

    智能汽车CAN FD总线需要什么样的降噪对策?

    智能汽车CAN FD总线需要什么样的降噪对策?
    的头像 发表于 11-30 09:37 294次阅读
    智能汽车CAN FD总线<b class='flag-5'>需要什么样</b>的降噪对策?

    计算16路FFT要什么样性能的单片机?

    计算16路FFT要什么样性能的单片机
    发表于 10-23 06:58

    产业,到底需要什么模型

    这种隔膜,在AI时代尤为严重。因为AI技术涉及的链条更长,做算法的、做云的、做硬件的、做IT解决方案的,以及最后买单的,大家可能在各说各的,谁也没打算真正理解谁。
    的头像 发表于 09-11 16:46 470次阅读

    时空感知时代需要什么样的北斗芯片?

    求是缘半导体联盟会员单位:MCT(毫厘智能)成立于2022年9月,是一家专注于智能时空感知芯片和解决方案的创新公司,致力于为智能驾驶、智能机器人、loT、共享出行、数字孪生、垂直行业等领域的客户提供一流的产品和服务。
    的头像 发表于 08-25 09:21 1374次阅读

    aigc软件需要什么云算力?

    aigc软件需要什么云算力? AIGC(人工智能大规模图像处理平台)作为一种基于深度学习算法的图像处理平台,需要巨大的云算力作为支撑。本文将从以下五个方面讨论AIGC软件所需要的云算力: 1. 训练
    的头像 发表于 08-21 17:16 508次阅读

    人工智能时代需要什么人才

    人工智能时代需要懂得人工智能技术应用的人才,这需要多学科交叉的综合型人才。例如,从产品设计、市场分析等角度思考,深入了解用户需求和行为,设计出能够真正满足用户需求的人工智能产品,并且能够将其落地,并推广到市场上。
    的头像 发表于 08-14 13:54 2203次阅读

    交换机星品汇:强到飞起!未来网络需要什么样的核心交换机?

    点击“阅读原文”,了解更多华为数据通信资讯! 原文标题:交换机星品汇:强到飞起!未来网络需要什么样的核心交换机? 文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 07-19 18:15 440次阅读
    交换机星品汇:强到飞起!未来<b class='flag-5'>网络</b><b class='flag-5'>需要什么样</b>的核心交换机?

    华为发布大模型时代AI存储新品

    7月14日,华为发布大模型时代AI存储新品, 为基础模型训练、行业模型训练,细分场景模型训练推理
    的头像 发表于 07-14 15:20 545次阅读
    华为发布大<b class='flag-5'>模型</b><b class='flag-5'>时代</b><b class='flag-5'>AI</b>存储新品

    IBM 观点:企业需要什么样的生成式 AI

    作者:Kareem Yusuf 博士,IBM Software 产品管理与成长 高级副总裁 企业需要的是根据其 独特需 求 和 自身数据 而 量身定制 的生成式 AI (2023 年 7 月 13
    的头像 发表于 07-13 18:20 238次阅读
    IBM 观点:企业<b class='flag-5'>需要什么样</b>的生成式 <b class='flag-5'>AI</b>?

    我们需要什么样的大模型

    以预训练大模型等为代表的新兴技术 掀起新一轮人工智能热潮 百“模”共生,百家争鸣 也启发我们深入思考下一步的发展方向 越来越多的专家、企业达成共识 集大成的大模型 应进入行业的核心生产系统 切实产生
    的头像 发表于 07-05 20:20 255次阅读
    我们<b class='flag-5'>需要什么样</b>的大<b class='flag-5'>模型</b>?

    充电桩安装需要什么样的条件

    充电桩安装需要什么条件 如今很多人购买新能源汽车后,都希望可以安装一个充电桩,这样就能更好解决充电的问题,也能避免给自身带来更多不必要的困扰。下面就跟小编一起来了解下,充电桩安装需要满足哪些要求
    发表于 05-10 11:33 2440次阅读