0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HugeCTR能够高效地利用GPU来进行推荐系统的训练

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-04-01 09:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. Introduction

HugeCTR 能够高效地利用 GPU 来进行推荐系统的训练,为了使它还能直接被其他 DL 用户,比如 TensorFlow 所直接使用,我们开发了 SparseOperationKit (SOK),来将 HugeCTR 中的高级特性封装为 TensorFlow 可直接调用的形式,从而帮助用户在 TensorFlow 中直接使用 HugeCTR 中的高级特性来加速他们的推荐系统。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

图 1. SOK embedding 工作流程

SOK 以数据并行的方式接收输入数据,然后在 SOK 内部做黑盒式地模型转换,最后将计算结果以数据并行的方式传递给初始 GPU。这种方式可以尽可能少地修改用户已有的代码,以更方便、快捷地在多个 GPU 上进行扩展。

SOK 不仅仅是加速了 TensorFlow 中的算子,而是根据业界中的实际需求提供了对应的新解决方案,比如说 GPU HashTable。SOK 可以与 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自带的通信工具,也可以使用 Horovod 等第三方插件来作为 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的标准模型 DLRM 来对 SOK 的性能进行测试。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

图 2. SOK 性能测试数据

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以获得更快的训练速度以及更高的吞吐量。

3. API

SOK 提供了简洁的、类 TensorFlow 的 API;使用 SOK 的方式非常简单、直接;让用户通过修改几行代码就可以使用 SOK。

1. 定义模型结构

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左侧是使用 TensorFlow 的 API 来搭建模型,右侧是使用 SOK 的 API 来搭建相同的模型。使用 SOK 来搭建模型的时候,只需要将 TensorFlow 中的 Embedding Layer 替换为 SOK 对应的 API 即可。

2. 使用 Horovod 来定义 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同样的,左侧是使用 TensorFlow 来定义 training loop,右侧是使用 SOK 时,training loop 的定义方式。可以看到,使用 SOK 时,只需要对 Embedding Variables 和 Dense Variables 进行分别处理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 来定义 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

类似的,还可以使用 TensorFlow 自带的通信工具来定义 training loop。

4. 开始训练

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在开始训练过程时,使用 SOK 与使用 TensorFlow 时所用代码完全一致。

4. 结语

SOK 将 HugeCTR 中的高级特性包装为 TensorFlow 可以直接使用的模块,通过修改少数几行代码即可在已有模型代码中利用上 HugeCTR 的先进设计。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134481
  • SOK
    SOK
    +关注

    关注

    0

    文章

    5

    浏览量

    6460

原文标题:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世界之间的差距。
    的头像 发表于 09-23 17:15 2007次阅读
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多节点<b class='flag-5'>训练</b>指南

    PCIe协议分析仪能测试哪些设备?

    场景:监测GPU与主机之间的PCIe通信,分析数据传输效率、延迟和带宽利用率。 应用价值:优化大规模AI训练任务的数据加载和模型参数同步,例如在多GPU
    发表于 07-25 14:09

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了
    发表于 07-25 08:18

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 2052次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems<b class='flag-5'>进行</b><b class='flag-5'>GPU</b>性能分析

    别让 GPU 故障拖后腿,捷智算GPU维修室救场!

    在AI浪潮汹涌的当下,GPU已然成为众多企业与科研机构的核心生产力。从深度学习模型训练,到影视渲染、复杂科学计算,GPU凭借强大并行计算能力,极大提升运算效率。然而,就像高速运转的精密仪器易出状况
    的头像 发表于 07-17 18:56 857次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室<b class='flag-5'>来</b>救场!

    利用API提升电商用户体验:个性化推荐系统

      在当今竞争激烈的电商环境中,个性化推荐系统已成为提升用户粘性和转化率的核心工具。通过API(Application Programming Interface)集成,电商平台能够高效接入先进
    的头像 发表于 07-14 14:45 387次阅读
    <b class='flag-5'>利用</b>API提升电商用户体验:个性化推荐<b class='flag-5'>系统</b>

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化的GPU资源分配不仅能显著提升模型训练速度,还能实
    的头像 发表于 05-06 11:17 1192次阅读
    提升AI<b class='flag-5'>训练</b>性能:<b class='flag-5'>GPU</b>资源优化的12个实战技巧

    电机高效再制造在企业生产中的应用

    电机高效再制造,就是将低效电机通过重新设计、更换零部件等方法,再制造成高效率电机或适用于特定负载和工况的系统节能电机(变极电机、变频电机、永磁电机等)。其目的是使再制造后电机的效率达到IE2(
    发表于 04-07 17:31

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型训练的理想选择。下面,AI部落小编为您具体分享。
    的头像 发表于 03-18 10:08 526次阅读

    摩尔线程GPU原生FP8计算助力AI训练

    近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子库,这两大框架在国产全功能GPU上实现了高效的混合
    的头像 发表于 03-17 17:05 1224次阅读
    摩尔线程<b class='flag-5'>GPU</b>原生FP8计算助力AI<b class='flag-5'>训练</b>

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek-V3满血版在国产GPU平台的高效全栈式训练与推理,实现国产大模型与国产GPU的深度融合优化,开启国产算力新篇章。
    的头像 发表于 03-04 14:01 1929次阅读

    大模型训练框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一个用于简化和加速深度学习模型训练的库,它支持在多种硬件配置上进行分布式训练,包括 CPU、GPU、TPU 等。Accelerat
    的头像 发表于 01-14 14:24 1778次阅读

    GPU是如何训练AI大模型的

    在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大模型的。
    的头像 发表于 12-19 17:54 1353次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA GPU
    发表于 12-16 14:25

    如何利用地物光谱进行地利用分类?

    在土地利用分类领域,地物光谱技术正发挥着日益重要的作用。下面就为大家简要介绍如何利用地物光谱进行地利用分类: 1.地物光谱数据采集: 使用专业光谱仪对不同地物
    的头像 发表于 12-13 14:44 700次阅读
    如何<b class='flag-5'>利用</b>地物光谱<b class='flag-5'>进行</b>土<b class='flag-5'>地利用</b>分类?