0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

信而泰CCL仿真:解锁AI算力极限,智算中心网络性能跃升之道

1092769615 来源:1092769615 作者:1092769615 2025-02-24 17:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

随着AI大模型训练和推理需求的爆发式增长,智算中心网络的高效性与稳定性成为决定AI产业发展的核心要素。信而泰凭借自主研发的CCL(集合通信库)评估工具DarYu-X系列测试仪 ,为智算中心RoCE网络提供精准评估方案,助力企业突破算力瓶颈,释放AI澎湃动力!

什么是智算中心

智算中心(AIDC,Artificial Intelligence Data Center)是专门为人工智能应用提供算力支持的高性能数据中心,是人工智能技术与云计算、大数据、物联网等现代信息技术深度融合的产物。它基于最新的人工智能理论,采用前沿的计算架构,为AI模型的训练、推理和应用提供强大的算力服务、数据服务和算法服务。

  • 智算中心可以分为狭义和广义两种定义:

狭义定义: 智算中心是“机房+网络+GPU服务器+算力调度平台”的融合基础设施,是传统数据中心的增值性延伸。

广义定义: 智算中心是“算力+数据+算法”的融合服务,是推动AI产业化和产业AI化的重要引擎,也是传统云数据中心的智能化升级。

  • 智算中心的核心功能包括:

算力服务: 提供高性能的计算能力,支持GPU、FPGAASIC等异构计算芯片,满足AI模型训练和推理的高并发需求。

数据服务: 提供数据治理、存储和优化服务,支持大规模数据的高效处理。
算法服务: 提供预训练大模型、行业算法库等,支持机器学习深度学习等AI应用。

资源调度: 通过智能调度平台,实现算力资源的灵活分配和高效利用。

为什么必须评估智算中心网络

对智算中心的RoCE网络进行评估测试,是为了确保其能够高效、稳定地支持大规模AI训练任务。具体原因包括:

验证性能: 确保网络具备低延迟、高吞吐量,满足智算中心对高性能的需求。

优化可靠性: 通过测试发现潜在问题,提升网络的稳定性和容错能力。

成本效益: 评估RoCE网络的性价比,选择最优方案。

支持分布式训练: 验证网络在大规模分布式AI任务中的表现,优化数据传输效率。

指导运维: 提前发现问题,优化运维策略,减少故障风险。

智算心网络评估工具-CCL

使用集合通信流量来评估智算中心网络的RoCE(RDMA over Converged Ethernet)性能,主要有以下几个原因:

Ø 集合通信是智算中心的关键特征 智算中心的业务(如AI大模型训练)依赖于高度同步的集合通信操作(如AllReduce、Broadcast),这些操作要求低延迟和高带宽的网络支持。

Ø 集合通信对网络性能要求极高 集合通信操作(如AllReduce)需要高吞吐量和低延迟,RoCE通过RDMA机制能够显著降低通信延迟并提高带宽利用率。

Ø RoCE性能直接影响智算中心效率 RoCE网络的性能直接影响分布式训练任务的通信效率,进而影响整个智算中心的加速比和效率。

Ø 集合通信流量能够全面评估RoCE性能 集合通信涵盖了多种通信模式(如点对点、广播、多点通信),能够全面测试RoCE网络的带宽、延迟、拥塞控制和负载均衡能力。

Ø RoCE在智算中心的广泛应用 RoCE技术因其开放性、互操作性和成本效益,在智算中心中广泛应用。评估其性能有助于优化配置,提升整体性能。

如何使用仪表CCL评估智算网络

使用信而泰Renix软件平台提供的CCL Traffic Emulation向导,测试配置实现通过向导配置,生成复杂的训练流量。针对不同AI训练数据包,评估在非拥塞网络、拥塞网络各项指标。对比网络正常和网络故障情况下各项组网指标,比如任务时间、训练时间、算法带宽、总线带宽、收发报文数量、时延、抖动、乱序等关键数据。
image.png

通过使用仪器仪表模拟GPU通信,可以有效降低测试成本,同时简化AI测试的复杂性和维护难度。这种方法使AI测试从传统的搭建真实服务器和使用价格高昂的GPU来测试RoCE交换机,转变为利用通用仪表仪器进行测试。这一转变不仅大幅节省了测试成本,还统一了验证规范,为国产AI的崛起提供了有力支持。

以下以8卡400G GPU模型训练为例,对比Ring Allreduce模型在非拥塞和拥塞网络环境下不同数据量(Data Size)的参数表现。通过实际数据对比,可以直观地体现CCL(Collective Communication Library,集合通信库)在评估网络性能方面的重要意义。

Ø CCL指标

如下图所示,使用Ring Allreduce在不同训练任务在非拥塞网络中体现
image.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(PFC)中体现

image.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(ECN+DCQCN)中体现

image.png

Ø Latency and Jitter by Data Size指标

如下图所示,使用Ring Allreduce在不同训练任务在非拥塞网络中体现
image.png
如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(PFC)中体现
image.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(ECN+DCQCN)中体现
image.png
Ø 对比不同场景下训练时间(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)

image.png
image.png
image.png
Ø 对比不同场景下算法带宽(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)

image.png
image.png
image.png
Ø 对比不同场景下总线带宽(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)

image.png
image.png
image.png
通过信而泰Renix软件平台的CCL Traffic Emulation功能,能够精确评估RoCE网络的关键指标,为AI网络的评估提供精细化数据支持。对比实验的结果可全面评估RoCE交换机的性能。该方案通过模拟真实AI工作负载,能够在复杂流量和大规模组网场景下,全面测试RoCE交换机的性能表现,并精准识别组网瓶颈,提升评估的精确性和实用性。

高密度智算网络测试解决方案
信而泰推出的X2-100GFP28、X5-400G高密度智算非拥塞网络(ROCEv2)测试仪是一款专为高端路由器、交换机以及数据中心交换机设计的高密度测试平台。该测试平台充分满足运营商、网络设备制造商和企业用户在高速以太网和智能计算网络测试业务中对增长和未来发展的需求。其高密度设计使得它在有限的空间内提供强大的测试能力,是应对未来网络挑战的理想选择。

客户价值

超高密度: 单机支持400G/200G/100G多速率,12端口灵活配置;

全协议兼容: 支持RoCEv2、标准以太网,适配异构网络环境;

智能化测试: 一键生成复杂流量模型,3分钟完成网络健康度诊断。

image.png
X2-100G RoCE测试板卡

image.png
高密度400G测试仪一体机

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5514

    浏览量

    74627
  • AI
    AI
    +关注

    关注

    89

    文章

    38080

    浏览量

    296307
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4960
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的
    的头像 发表于 09-19 15:25 422次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    的模型轻量化部署方案。用户通过远程平台预置的模型镜像与AI工具,仅需50%的GPU即可解锁
    的头像 发表于 07-30 21:44 717次阅读

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI
    的头像 发表于 07-23 12:18 945次阅读
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    华为星河AI效数据中心网络方案荣获通院智网络测评五星认证

    国内首个配套N卡测评!华为星河AI效数据中心网络方案荣获
    的头像 发表于 06-28 17:50 1582次阅读

    芯片的生态突围与革命

    电子发烧友网报道(文 / 李弯弯)大芯片,即具备强大计算能力的集成电路芯片,主要应用于高性能计算(HPC)、人工智能(AI)、数据中心
    的头像 发表于 04-13 00:02 2596次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    数据传输速率,减少带宽瓶颈,成为数据中心AI集群架构优化的重点。光模块速率的跃升不仅提升了传输效率,也为大规模并行计算任务提供了必要的带宽保障。 800G光模块如何解决DeepSeek大规模
    发表于 03-25 12:00

    AI需求激增,数据中心如何应对能源挑战

      “AI的爆发带来了巨大的需求,为了满足AI大模型的训练和应用推理,智中心的建设将加速。
    的头像 发表于 02-22 09:49 1063次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>需求激增,数据<b class='flag-5'>中心</b>如何应对能源挑战

    DeepSeek驱动AI市场升温,智中心利用率望提升

    。 尽管目前这一需求尚未对供给造成直接影响,但卡价格已经呈现出上涨趋势。这一变化反映出市场对AI的强烈需求,以及DeepSeek等技术推动下的
    的头像 发表于 02-19 14:00 704次阅读

    中心的核心硬件是什么?

    中心,作为人工智能时代的关键基础设施,其核心硬件的构成与性能直接影响着智能计算的效率与质量。以下是对智中心核心硬件的详细阐述:一、
    的头像 发表于 02-17 14:42 1973次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的核心硬件是什么?

    中心如何衡量?

    作为当下科技发展的重要基础设施,其的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心衡量的详细阐述:一、
    的头像 发表于 01-16 14:03 4168次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    融合 南京易达发布全新“智能融合平台”

    1月7日,南京易达发布了旗下最新平台“C-MOM智能融合平台V3.0”,并更新了全新的UI视觉与交互系统。 该平台集成了HPC超
    的头像 发表于 01-08 10:56 1257次阅读
    超<b class='flag-5'>算</b>智<b class='flag-5'>算</b>融合 南京<b class='flag-5'>信</b>易达发布全新“智能<b class='flag-5'>算</b><b class='flag-5'>力</b>融合平台”

    中心会取代通用中心吗?

    随着人工智能(AI)技术的飞速发展,计算需求不断攀升,数据中心行业正经历着前所未有的变革。传统的通用中心与新兴的智
    的头像 发表于 01-06 14:45 886次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>会取代通用<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>吗?

    企业AI租赁模式的好处

    构建和维护一个高效、可扩展的AI基础设施,不仅需要巨额的初期投资,还涉及复杂的运维管理和持续的技术升级。AI
    的头像 发表于 12-24 10:49 1654次阅读