0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能计算中心规划建设指南

架构师技术联盟 来源:智算中心网络架构白皮书 2023-08-09 09:49 次阅读

传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。承载 VPC 网络的底层物理网络架构,对于承载智算业务存在如下挑战。

本文选自“智算中心网络架构白皮书(2023)”“智能计算中心规划建设指南”,对传统网络与智算网络、两层胖树、三次胖树及全面的分析对比,并介绍了组网最佳实践。

有阻塞网络:考虑到并非所有服务器都会同时对外产生流量,为了控制网络建设成本, Leaf 交换机的下联带宽和上联带宽并非按照 1:1 设计,而是存在收敛比。一般上联带宽仅有下联带宽的三分之一。

云内部流量时延相对较高:跨 Leaf 交换机的两台服务器互访需要经过 Spine 交换机,转发路径有 3 跳。

带宽不够大:一般情况下单物理机只有一张网卡接入 VPC 网络,单张网卡的带宽比较有限,当前较大范围商用的网卡带宽一般都不大于 200Gbps。

对于智算场景,当前比较好的实践是独立建一张高性能网络来承载智算业务,满足大带宽,低时延,无损的需求。

大带宽的设计

智算服务器可以满配 8 张 GPU 卡,并预留 8 个 PCIe 网卡插槽。在多机组建 GPU 集群时,两个 GPU 跨机互通的突发带宽有可能会大于 50Gbps。因此,一般会给每个 GPU 关联一个至少 100Gbps 的网络端口。在这种场景下可以配置 4张 2*100Gbps 的网卡,也可以配置 8 张 1*100Gbps 的网卡,当然也可以配置 8 张单端口 200/400Gbps 的网卡。

7fed62ee-3643-11ee-9e74-dac502259ad0.png

无阻塞设计

无阻塞网络设计的关键是采用 Fat-Tree(胖树)网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有64 个 100Gbps 的端口,那么上联也有 64 个 100Gbps 的端口。

此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。

低时延设计 AI-Pool

在低时延网络架构设计方面,百度智能云实践和落地了基于导轨(Rail)优化的AI-Pool 网络方案。在这个网络方案中,8 个接入交换机为一组,构成一个 AI-Pool。以两层交换机组网架构为例,这种网络架构能做到同 AI-Pool 的不同智算节点的 GPU 互访仅需一跳。

在 AI-Pool 网络架构中,不同智算节点间相同编号的网口需要连接到同一台交换机。如智算节点 1 的 1 号 RDMA 网口,智算节点 2 的 1 号 RDMA 网口直到智算节点 P/2 的 1 号 RDMA 网口都连到 1 号交换机。

在智算节点内部,上层通信库基于机内网络拓扑进行网络匹配,让相同编号的 GPU 卡和相同编号的网口关联。这样相同GPU 编号的两台智算节点间仅一跳就可互通。

不同GPU编号的智算节点间,借助NCCL通信库中的Rail Local技术,可以充分利用主机内GPU间的NVSwitch的带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号的互通。

80098bcc-3643-11ee-9e74-dac502259ad0.png

对于跨 AI-Pool 的两台物理机的互通,需要过汇聚交换机,此时会有 3 跳。

80232d2a-3643-11ee-9e74-dac502259ad0.png

网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多,承载的 GPU 卡的规模会变大,但转发的跳数和时延也会变大,需要结合实际业务情况进行权衡。

两层胖树架构

8 台接入交换机组成一个智算资源池 AI-Pool。图中 P 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为P/2 个,即单台交换机最多可以下联 P/2 台服务器和 P/2 台交换机。两层胖树网络可以接入 P*P/2 张 GPU 卡。

80557eb0-3643-11ee-9e74-dac502259ad0.png

三层胖树架构

三层网络架构中会新增汇聚交换机组和核心交换机组。每个组里面的最大交换机数量为 P/2。汇聚交换机组最大数量为 8,核心交换机组的最大数量为 P/2。三层胖树网络可以接入 P*(P/2)*(P/2)=P*P*P/4 张 GPU 卡。

在三层胖树组网中,InfiniBand 的 40 端口的 200Gbps HDR 交换机能容纳的最多 GPU 数量是 16000。这个 16000GPU 卡的规模也是目前 InfiniBand 当前在国内实际应用的 GPU 集群的最大规模网络,当前这个记录被百度保持。

8082aa66-3643-11ee-9e74-dac502259ad0.png

两层和三层胖树网络架构的对比

可容纳的 GPU 卡的规模

两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模,P 代表单台交换机的端口数量。比如对于端口数为 40 的交换机,两层胖树架构可容纳的 GPU 卡的数量是 800 卡,三层胖树架构可容纳的 GPU 卡的数量是 16000 卡。

80cbbf12-3643-11ee-9e74-dac502259ad0.png

转发路径

两层胖树和三层胖树网络架构另外一个区别是任意两个节点的网络转发路径的跳数不同。

对于同智算资源池 AI-Pool 的两层胖树架构,智算节点间同 GPU 卡号转发跳数为 1 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 3 跳。

对于同智算资源池 AI-Pool 的三层胖树架构,智算节点间同 GPU 卡号转发跳数为 3 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 5 跳。

80ecb71c-3643-11ee-9e74-dac502259ad0.png

典型实践

不同型号的 InfiniBand/RoCE 交换机和不同的网络架构下所支持的 GPU 的规模不同。结合当前已成熟商用的交换机,我们推荐几种物理网络架构的规格供客户选择。

Regular:InfiniBand 两层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 800 张 GPU 卡。

Large:RoCE 两层胖树网络架构,基于 128 端口 100G 数据中心以太交换机,单集群最大支持 8192 张 GPU 卡。

XLarge:InfiniBand 三层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 16000 张 GPU 卡。

XXLarge:基于 InfiniBand Quantum-2 交换机或同等性能的以太网数据中心交换机,采用三层胖树网络架构,单集群最大支持 100000 张 GPU 卡。

810b9466-3643-11ee-9e74-dac502259ad0.png

Large智算物理网络架构实践

支撑上层创新应用和算法落地的关键环节之一是底层的算力,而支撑智算集群的算力发挥其最大效用的关键之一是高性能网络。度小满的单个智算集群的规模可达 8192 张 GPU 卡,在每个智算集群内部的智算资源池 AI-Pool 中可支持 512张 GPU 卡。通过无阻塞、低时延、高可靠的网络设计,高效的支撑了上层智算应用的快速迭代和发展。

XLarge智算物理网络架构实践

为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。该网络已稳定运行多年,2021 年建设之初就直接采用了 200Gbps 的 InfiniBand HDR 交换机,单台 GPU 服务器的对外通信带宽为1.6Tbps。

责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 带宽
    +关注

    关注

    3

    文章

    818

    浏览量

    40144
  • 服务器
    +关注

    关注

    12

    文章

    8120

    浏览量

    82528
  • 交换机
    +关注

    关注

    19

    文章

    2438

    浏览量

    95667
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70087
  • 智能计算
    +关注

    关注

    0

    文章

    147

    浏览量

    16403

原文标题:智算中心网络架构设计实践(2023)

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    多个城市人工智能计算中心陆续上线

    开发、模型训练和模型推理等场景,提供从底层芯片算力释放到顶层应用使能的人工智能全栈能力。   当前,采用集约化方式建设公共算力已形成广泛共识,全国有20多个城市正在建设或准备建设人工
    的头像 发表于 06-01 00:01 3123次阅读

    智算中心网络架构选型原则

      通常,在在AI智算系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段;本文选自“ 智算中心网络架构白皮书(2023) ”“ 智能计算中心规划
    的头像 发表于 08-07 09:13 1645次阅读

    基建狂魔又一大工程,智算中心

    AI时代下的新型基础设施。而专注在AI算力上这一点,也让其有别于超算中心和云数据中心。   2020年4月,国家发改委也联合浪潮,对这一新型基础设施发布了《智能计算中心
    的头像 发表于 09-08 09:23 3961次阅读

    请问各位大侠此滤波电路如何计算中心频率f0和带宽

    本帖最后由 gk320830 于 2015-3-8 20:09 编辑 请问各位大侠此滤波电路如何计算中心频率f0和带宽。
    发表于 12-20 14:33

    请问各位大侠此带通滤波电路如何计算中心频率f0和带宽

    请问各位大侠此带通滤波电路如何计算中心频率f0和带宽
    发表于 12-26 20:13

    【亚派·资讯】电力发展“十三五”规划:推进“互联网+”智能电网建设

    接纳和优化配置多种能源的能力,满足多元用户供需互动。全面建设智能变电站。全面推广智能调度控制系统,应用大数据、云计算、物联网、移动互联网技术,提升信息平台承载能力和业务应用水平。
    发表于 08-29 15:35

    台湾将建设计算中心并成立公司

    台湾将建设计算中心并成立公 台湾将建设计算中心并成立公司
    发表于 01-26 17:03 735次阅读

    曙光联手北京计算中心 打造云计算联合实验室

    近日,国内知名服务器厂商曙光公司与国内最大的工业云计算中心北京市计算中心对外宣布共同联手建设"北京市计算中心曙光 云计算联合实验室"(以下简
    发表于 01-04 15:50 852次阅读

    站在风口 本土AI智能计算中心蓄势待发

    作为全国领先的智能计算中心,“沣东新城智能计算中心”于6月正式发布了AI开放创新平台——沣云平台,平台现已上线并开放免费公测,用户注册、登录后即可进行AI
    发表于 07-31 11:30 600次阅读

    深扒北京超级云计算中心背后的故事

    据了解,北京超级云计算中心成立于2011年,依托中国科学院计算机网络信息中心建立,由北京北龙超级云计算有限责任公司负责运营,是怀柔科学城北京市人民政府与中国科学院共同
    的头像 发表于 12-21 15:39 4995次阅读

    许昌市政府与华为共同建设中原人工智能计算中心

    集微网消息,据河南日报报道,1月30日,许昌市政府与华为公司签署战略合作协议,共同建设中原人工智能计算中心。此举对于加快许昌人工智能产业发展、完善黄河鲲鹏计算产业生态具有重要意义。 根
    的头像 发表于 02-01 17:35 2021次阅读

    沈阳人工智能计算中心正式上线并网投入运行

    【中国,沈阳,2022年8月9日】东北首座人工智能计算中心——沈阳人工智能计算中心(简称“沈阳智算”)正式上线并网投入运行。
    发表于 08-10 09:53 1037次阅读

    沈阳人工智能计算中心正式上线并网

    “北方算谷”启幕暨沈阳人工智能计算中心上线并网仪式在辽宁省沈阳市浑南区举行。作为东北地区目前接入中国算力网络的唯一节点,沈阳人工智能计算中心将通过鹏城实验室联通全国算力企业和
    发表于 08-11 09:52 475次阅读

    人工智能计算中心是干什么的

    人工智能计算中心是干什么的  人工智能计算中心是指一种计算机设施,专门用于进行人工智能领域的研究
    的头像 发表于 08-15 16:06 932次阅读

    数通365案例 | 全国首个人工智能计算中心,新以太助力武汉"最强大脑"

    武汉人工智能计算中心是科技部已批复的15个国家人工智能创新发展试验区中率先投入运营的项目。武汉人工智能计算中心
    的头像 发表于 12-07 18:15 331次阅读