0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 集合通信库加快深度学习训练速度

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-30 09:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 集合通信库(NCCL)可实现针对 NVIDIA GPU 和网络进行性能优化的多 GPU 和多节点通信基元。

关于 NVIDIA 集合通信库(NCCL)

NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,这些例程均经过优化,可通过节点内的 PCIe 和 NVLink 高速互联以及节点间的 NVIDIA Mellanox 网络实现高带宽和低延迟。

先进的深度学习框架(例如 Caffe2、Chainer、MXNet、PyTorch和 TensorFlow)已集成 NCCL,以在多 GPU 多节点的系统上加快深度学习训练速度。

ae8d2664-0f4a-11ed-ba43-dac502259ad0.png

便捷性能

使用 NCCL,开发者无需针对特定机器优化其应用,因而更加便捷。NCCL 可在节点内和节点间实现多个 GPU 的快速集合。

简化编程

NCCL 使用可从多种编程语言轻松访问的简单 C API,且严格遵循 MPI(消息传递接口)定义的主流集合 API。

兼容性

NCCL 几乎可与任何多 GPU 并行模型兼容,例如:单线程、多线程(每个 GPU 使用一个线程)和多进程模型(MPI 与 GPU 上的多线程操作相结合)。

主要特性

AMDArm、PCI Gen4 和 IB HDR 上的高带宽路径进行自动拓扑检测

凭借利用 SHARPV2 的网络内 all reduce 操作,将峰值带宽提升 2 倍

通过图形搜索,找到更佳的高带宽、低延迟的环和树集合

支持多线程和多进程应用

InfiniBand verbs、libfabric、RoCE 和 IP Socket 节点间通信

使用 Infiniband 动态路由重新路由流量,缓解端口拥塞

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109090
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134456
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123905

原文标题:DevZone | NVIDIA集合通信库(NCCL)

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    领域主流开发环境,LabVIEW与深度学习的集成一直是行业痛点。课程提供独家开发的labview调用框架,实现从模型训练(Python)到部署(LabVIEW)的无缝衔接,已成功应用于DIP、AOI
    发表于 12-03 13:50

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和
    的头像 发表于 09-23 17:15 1976次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多节点<b class='flag-5'>训练</b>指南

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“
    的头像 发表于 09-10 17:38 692次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行
    的头像 发表于 07-14 15:29 1828次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab可用环境与强化<b class='flag-5'>学习</b>脚本使用指南

    如何破解GPU集群集合通信路径的“黑盒”难题?

    集合通信(如NCCL、HCCL)的运行细节用户完全无感知,形成“黑盒”状态。EPS通过实时解析集合通信的底层运行状态,将隐蔽的通信路径、
    的头像 发表于 05-22 10:13 713次阅读
    如何破解GPU集群<b class='flag-5'>集合通信</b>路径的“黑盒”难题?

    NVIDIA NVLink 深度解析

    训练万亿参数人工智能模型至关重要 ^4^。本深度分析报告旨在全面探讨 NVIDIA NVLink,涵盖其定
    的头像 发表于 05-06 18:14 4083次阅读

    借助OpenUSD与合成数据推动人形机器人发展

    适用于合成运动数据的 NVIDIA Isaac GR00T Blueprint 大幅加快人形机器人的数据生成和训练速度
    的头像 发表于 04-25 10:04 749次阅读

    使用NVIDIA CUDA-X加速科学和工程发展

    NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的
    的头像 发表于 03-25 15:11 1205次阅读

    用树莓派搞深度学习?TensorFlow启动!

    介绍本页面将指导您在搭载64位Bullseye操作系统的RaspberryPi4上安装TensorFlow。TensorFlow是一个专为深度学习开发的大型软件,它消耗大量资源。您可以在
    的头像 发表于 03-25 09:33 963次阅读
    用树莓派搞<b class='flag-5'>深度</b><b class='flag-5'>学习</b>?TensorFlow启动!

    BP神经网络与深度学习的关系

    ),是一种多层前馈神经网络,它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成,通过逐层递减的方式调整网络权重,目的是最小化网络的输出误差。 二、深度学习的定义与发展
    的头像 发表于 02-12 15:15 1340次阅读

    NVIDIA宣布NVIDIA Isaac重要更新

    ,更为全球开发者提供了更加强大、高效的工具,以加速AI机器人的开发进程。 NVIDIA Isaac是一个综合性的平台,它集成了加速、应用框架和AI模型等多种资源。这些组件协同工作,为开发者提供了一个从底层算法到上层应用的全方位支持环境。通过利用
    的头像 发表于 01-17 14:45 841次阅读

    大模型训练框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一个用于简化和加速深度学习模型训练,它支持在多种硬件配置上进行分布式训练,包括 C
    的头像 发表于 01-14 14:24 1767次阅读

    集合通信与AI基础架构

    人工智能集群的性能,尤其是机器学习训练集群,受到神经网络处理单元NPUs(即GPU或TPU)之间并行计算能力的显著影响。在我们称为纵向扩展scale-up和横向扩展scale-out设计中,NPUs
    的头像 发表于 01-08 11:28 1873次阅读
    <b class='flag-5'>集合通信</b>与AI基础架构

    KerasHub统一、全面的预训练模型

    深度学习领域正在迅速发展,在处理各种类型的任务中,预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这一动向的前沿。Keras 拥有专用的内容
    的头像 发表于 12-20 10:32 771次阅读