0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Isaac Lab多GPU多节点训练指南

丽台科技 来源:丽台科技 2025-09-23 17:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA Isaac Lab是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世界之间的差距。

Isaac Lab 主要通过 NVIDIA GPU 加速高度逼真的物理模拟、实时渲染、深度强化学习(RL)模仿学习(IL)集成等先进技术,然而对于复杂的强化学习环境,可能需要在多个 GPU 上扩大训练规模。Isaac Lab 支持多 GPU 和多节点功能,与在单个 GPU 上进行训练相比,可以更快地加速训练过程并达到更高的性能水平。

在之前的机器人仿真教程里,我们分别介绍了Isaac Lab 的安装教程以及Isaac Lab 的可用环境与强化学习脚本使用指南,本篇教程将带大家了解如何通过多 GPU 和多节点进行扩展训练。

核心要点

Isaac Lab 支持多 GPU 和多节点强化学习。但是此功能目前仅可用于 RL-Games、RSL-RL 和 skrl 库。多 GPU 和多节点训练仅支持 Linux 系统,因 NCCL 库限制,暂不支持 Windows 系统。

一、多 GPU

Isaac Lab 支持以下两种多 GPU 训练框架。

1. 通过 PyTorch Torchrun 进行分布式训练

Torchrun 通过以下方式管理分布式训练:

进程管理:为每个 GPU 创建一个独立进程,并将每个进程分配至指定的 GPU。

脚本执行:在每个进程上运行相同的训练脚本(例如 RL Games)。

环境实例:每个进程都会创建独立的 Isaac Lab 环境实例。

梯度同步:收集并同步所有进程的梯度,在每个训练步骤结束后将更新后的梯度广播回各进程。

此流程中的关键组件是:

Torchrun:处理进程生成、通信和梯度同步。

RL 库:运行实际训练算法的强化学习库。

Isaac Lab:提供每个进程独立实例化的模拟环境。

Torchrun 在底层使用 DistributedDataParallel 模块来管理分布式训练。当使用多个 GPU 进行训练时,会发生以下情况:

每个 GPU 运行一个独立的进程

每个进程执行完整的训练脚本

每个进程都独立拥有:

① Isaac Lab 环境实例(含 n 个并行环境)

② 策略网络副本

③ 用于收集训练经验的缓冲区

所有进程仅针对梯度更新进行同步

2. 通过 JAX 进行分布式训练

在使用 JAX 时,我们借助skrl.utils.distributed.jax模块来实现分布式训练。由于 JAX 等机器学习框架通常不会在单个程序调用中自动启动多个进程,因此 skrl 库提供了该模块,用于负责进程的启动与管理。

*注:仅 skrl 库支持 JAX。

二、多节点

除了将训练规模扩展到单台机器上的多个 GPU 之外,还可以跨多个节点进行训练。要跨多个节点/机器进行训练,需要在每个节点上启动单独的进程。

运行训练

接下来,我们来演示下多 GPU 多节点训练操作步骤。本期教程以 NVIDIA RTX 5880 Ada GPU 为底层硬件支持。

一、训练环境

1. CUDA 安装:

1.1使用 nvidia-smi 查看当前驱动支持的最高 cuda 版本。如下图所示,可以看到当前显示最高版本为 CUDA Version:12.8。

c45d8ea8-8f98-11f0-8c8f-92fbcf53809c.jpg

图1

1.2访问官网(https://developer.nvidia.com/cuda-toolkit-archive),下载并安装 CUDA 12.8 及以下版本。

c4c04f98-8f98-11f0-8c8f-92fbcf53809c.png

根据提示,选择对应系统版本,获取 CUDA 工具包安装程序下载链接以及安装方式。

c51dfb16-8f98-11f0-8c8f-92fbcf53809c.png

1.3运行以下命令:

sudosh cuda_12.8.0_570.86.10_linux.run

2. Pytorch安装

2.1访问https://pytorch.org/,根据提示选择对应系统、CUDA版本等下载安装即可。

c57ba52c-8f98-11f0-8c8f-92fbcf53809c.png

2.2如果提示没有 pip,按照要求 apt 安装。

c5da7890-8f98-11f0-8c8f-92fbcf53809c.png

2.3执行pip3 install torch torchvision。

c63596d0-8f98-11f0-8c8f-92fbcf53809c.png

2.4安装完成后,查看 pytorch 版本。

c6980ad6-8f98-11f0-8c8f-92fbcf53809c.png

二、运行结果(多节点训练)

1. 在窗口中再次确认环境变量

exportISAACSIM_PATH="${HOME}/isaacsim"
exportISAACSIM_PYTHON_EXE="${ISAACSIM_PATH}/python.sh"

2. 节点运行

在节点 1 运行:

${ISAACSIM_PYTHON_EXE}-m torch.distributed.run --nproc_per_node=1 --nnodes=2 --node_rank=0 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=192.168.150.161:5555 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless –distributed

在节点 2 运行:

${ISAACSIM_PYTHON_EXE}-m torch.distributed.run --nproc_per_node=1 --nnodes=2 --node_rank=1 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=192.168.150.161:5555 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless –distributed

注意,需要调整的参数主要是:

--nproc_per_node

每个节点(机器)上启动的进程数,通常设置为该节点的 GPU 数量。例如,若单机有 8 块 GPU,--nproc_per_node=8。

--nnodes

参与训练的物理节点总数。例如,--nnodes=4表示使用 4 台机器组成集群进行训练。

--rdzv_endpoint

主节点的 IP 地址和端口号,格式为host:port。所有节点通过此端点进行通信协调,例如--rdzv_endpoint=192.168.1.100:29500。

*如需了解详细步骤,可参考官方文档:

https://isaac-sim.github.io/IsaacLab/main/source/features/multi_gpu.html

推荐硬件配置

以下是丽台针对个人开发者/研究人员的机器人仿真及训练环境推荐配置,能流畅运行 Isaac Lab 以及机器人训练和仿真所需的算力,同时可再与企业级多卡集群方案形成互补,能够完全满足中小规模的实验需求。

LEADTEK WS3008

LEADTEK WS3008 产品特性

支持选配 2 张 NVIDIA RTX 5880 Ada GPU

支持单 Intel Xeon W-3400、W-2400 系列处理器

Intel W790 芯片组

支持最高至 350W CPU TDP

支持最多 DDR5-4800MHz x8 内存

支持 4 PCIe 5.0 x16 插槽

支持 1 M.2 NVMe PCI-E 4.0 x4

支持 2 个 10GbE BaseT、1 个 2.5GbE BaseT 和 1 个 1GbE BaseT 网口

支持 1 个 IPMI 管理口

支持 2 个 USB-A

支持 1 个 VGA 口,1 个 COM 口

支持 1 个 1200W/1300W 铂金电源

机箱体积:400.0×278.0×167.6 mm

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30600

    浏览量

    219655
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134473

原文标题:突破算力限制!Isaac Lab 多 GPU 多节点训练指南

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 1839次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b> <b class='flag-5'>Lab</b>可用环境与强化学习脚本使用<b class='flag-5'>指南</b>

    《CST Studio Suite 2024 GPU加速计算指南

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 -
    发表于 12-16 14:25

    Nvidia GPU风扇和电源显示ERR怎么解决

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,如果机器锁屏一段时间再打开的时候鼠标非常卡顿,或者说显示界面非常卡顿,使用nvidia-smi查看发现,
    发表于 12-30 06:44

    在Ubuntu上使用Nvidia GPU训练模型

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示
    发表于 01-03 08:24

    NVIDIA Modulus为数字双胞胎开发ML模型框架

      训练引擎 Modulus 接受所有输入,并利用 PyTorch 和 TensorFlow 来训练生成的模型 cuDNN 进行 GPU 加速,利用 Magnum IO 进行
    的头像 发表于 04-14 14:58 1631次阅读

    NVIDIA 集合通信库加快深度学习训练速度

    NVIDIA 集合通信库(NCCL)可实现针对 NVIDIA GPU 和网络进行性能优化的 GPU
    的头像 发表于 07-30 09:02 3183次阅读

    NVIDIA AI机器人开发— NVIDIA Isaac Sim入门

    NVIDIA 最新公开课来了,本次将围绕用于开发和训练智能机器人的模拟平台—— NVIDIA Isaac Sim 。 NVIDIA
    的头像 发表于 10-19 15:58 2744次阅读

    坚米智能借助NVIDIA Isaac Lab加速四足机器人开发

    坚米智能(中坚科技)借助NVIDIA Isaac Lab平台,通过NVIDIA Isaac Sim的 3D 生成与建模技术构建高度逼真的虚拟
    的头像 发表于 12-29 14:01 2125次阅读

    NVIDIA技术助力Pantheon Lab数字人实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字人技术解决方案,通过 NVIDIA 技术实现数字人实时对话与客户互动交流。借助 NVIDIA GPU
    的头像 发表于 01-14 11:19 929次阅读

    简述NVIDIA Isaac的重要更新

    在 2025 CES,NVIDIA 宣布了对NVIDIA Isaac的重要更新。NVIDIA Isaac 是一个由加速库、应用框架和 AI
    的头像 发表于 01-17 09:57 1761次阅读
    简述<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b>的重要更新

    NVIDIA技术驱动帕西尼触觉感知与人形机器人智能突破

    本案例中通过在 NVIDIA Isaac 平台集成触觉仿真器,借助 NVIDIA Isaac Sim 平台的 3D 场景生成技术和 NVIDIA
    的头像 发表于 04-21 09:15 1201次阅读

    NVIDIA Isaac Sim与NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了机器人仿真参考应用 NVIDIA Isaac Sim 和机器人学习框架 NVIDIA Isa
    的头像 发表于 05-28 10:06 1757次阅读

    NVIDIA Isaac Sim 4.5.0与lsaac Lab 2.0的安装教程

    Isaac Sim 和 Isaac Lab 目前开放下载的版本是 Isaac Sim 4.5.0 以及 Isaac
    的头像 发表于 06-19 15:00 2094次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b> Sim 4.5.0与lsaac <b class='flag-5'>Lab</b> 2.0的安装教程

    NVIDIA Isaac Sim和Isaac Lab现已推出早期开发者预览版

    NVIDIA 发布了机器人仿真参考应用 Isaac Sim 和机器人学习框架 Isaac Lab 的开发者预览版。开发者现在可以通过 GitHub 访问早期版本,抢先体验先进功能,用于
    的头像 发表于 07-04 14:23 1491次阅读

    NVIDIA Isaac Lab推动机器人技术突破

    Isaac LabIsaac Gym 的替代版本,该框架已将 GPU 原生机器人仿真扩展至大规模模态学习的全新领域。
    的头像 发表于 10-21 11:20 923次阅读