0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU加速的推荐程序框架Merlin HugeCTR

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-03-20 15:30 次阅读

Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。

此次v3.4更新涉及的模块主要为:

HugeCTR 分级参数服务器

HugeCTR Python API

相关介绍:

HugeCTR 分级参数服务器介绍

V3.4.1 版本新增内容

调整了整个代码库中日志消息的日志级别。

现已支持对具有多个标签的数据集进行推理:

“Softmax” 层现在已支持 FP16,并且支持混合精度以进行多标签推理。

支持多 GPU 离线推理:

我们通过 Python 接口支持多 GPU 离线推理,它可以利用Hierarchical Parameter Server

并在多个设备上实现并发执行。更多信息请参考推理 API和多 GPU 离线推理笔记本。

HPS 已构建为独立库:

我们重构了代码库并将分层参数服务器构建为一个独立的库,以后会进一步封装。

metadata.json 简介:

添加了有关 Parquet data 中 _metadata.json 的详细信息。

增加了用于估计每个 GPU 的词汇量大小的文档和工具:

我们添加了一个工具来计算每个 GPU 的不同嵌入类型的词汇量大小,在此基础上,workspace_size_per_gpu_in_mb 可以根据嵌入向量大小和优化器类型评估更多信息请参考脚本:

训练中支持 HDFS :

a. 现在支持从 HDFS 加载和存储模型和优化器状态。

b. 增加了编译选项使 HDFS 的支持更加灵活。

c. 添加了一个笔记本来展示如何将 HugeCTR 与 HDFS 一起使用:

增加了一个演示如何分析模型文件的 Python 脚本和笔记本

错误修复:修复了SOK 中的镜像策略错误。

修复了无法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02 中导入稀疏操作工具包的问题。

HugeCTR 参数服务器:修复了在未配置 RocksDB 时,可能会在初始化期间发生的访问冲突问题。

已知问题

HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令(-shm-size=1g -ulimit memlock=-1) 来增加这些资源。

另见 NCCL 的 已知问题

还有 GitHub 问题

目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。

文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 worker 将被映射到同一个文件,从而导致数据加载不会按预期进行。

正则化器暂不支持联合损失训练。

原文标题:Merlin HugeCTR v3.4.1 发布说明

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 接口
    +关注

    关注

    33

    文章

    7648

    浏览量

    148523
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
  • 工具包
    +关注

    关注

    0

    文章

    45

    浏览量

    9458

原文标题:Merlin HugeCTR v3.4.1 发布说明

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美国Merlin公司加速自主飞行模拟器开发

    美国Merlin公司正全力加速自主飞行模拟器的开发进程,以推动航空领域的创新与发展。这一举措不仅体现了Merlin公司在技术研发方面的雄厚实力,也预示着自主飞行技术即将迎来新的突破。
    的头像 发表于 04-22 11:30 263次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于 GPU 上进行加速
    的头像 发表于 04-20 09:39 168次阅读

    利用GPU加速在Orange Pi 5上跑LLMs:人工智能爱好者High翻了!

    本期视频将会给人工智能爱好者们带来超级震撼!视频中,我们将深入了解利用GPU加速在OrangePi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用GPU加速,在OrangePi上跑
    的头像 发表于 01-22 15:29 541次阅读
    利用<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>在Orange Pi 5上跑LLMs:人工智能爱好者High翻了!

    OpenHarmony开源GPU库Mesa3D适配说明

    ,对下使用Gallium框架,屏蔽驱动差异。在RK3568中,panfrost对ARM GPU提供了非常好的开源驱动支持。 二、适配方法 在RK3568 GPU 开源库mesa3D适配时,我们同时依赖
    发表于 12-25 11:38

    177倍加速!NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在GPU上,所以很容易和深度学习方案结合!
    的头像 发表于 11-09 16:46 563次阅读
    177倍<b class='flag-5'>加速</b>!NVIDIA最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPUMerlin 软件解决方案替代其原有
    的头像 发表于 11-09 10:45 142次阅读
    NVIDIA <b class='flag-5'>Merlin</b> 助力陌陌推荐业务实现高性能训练优化

    非常实用,推荐一种面向对象思维的单片机程序框架

    非常实用,推荐一种面向对象思维的单片机程序框架
    的头像 发表于 10-24 18:03 288次阅读
    非常实用,推荐一种面向对象思维的单片机<b class='flag-5'>程序</b><b class='flag-5'>框架</b>

    AN1292与电机控制应用程序框架对比分析

    文档对AN1292软件与motorBench™开发套件随附的MC应用程序框架之间的差异进行了分 析,旨在回顾全新MC应用程序框架代码相对于AN1292的参考应用笔记软件的改进和限制。
    发表于 09-22 17:37 2次下载
    AN1292与电机控制应用<b class='flag-5'>程序</b><b class='flag-5'>框架</b>对比分析

    Mali GPU OpenGL ES应用程序开发指南

    这是适用于马里GPU的OpenGL ES应用程序开发指南。 它提供了使用OpenGL ES 1.1和OpenGL ES 2.0 API为马里GPU开发应用程序的指南。 本文档适用于马里
    发表于 08-30 07:57

    深度学习框架pytorch介绍

    。PyTorch具有易于使用的API和文档,并强制执行Python编码标准。这使得它成为机器学习从业者的首选框架之一。PyTorch支持CPU和GPU计算以及分布式训练模型。 PyTorch的核心
    的头像 发表于 08-17 16:10 1151次阅读

    手把手教你单片机程序框架 几种常见的单片机编程框架解析

    什么是框架程序框架其实就类似一个文件大纲或者模板。因为写程序就类似于写文章,如果没有大纲或者模板那么你写起来就会比较费劲。 为什么要有框架
    的头像 发表于 07-17 19:55 1571次阅读
    手把手教你单片机<b class='flag-5'>程序</b><b class='flag-5'>框架</b> 几种常见的单片机编程<b class='flag-5'>框架</b>解析

    为什么需要专门出现GPU处理图形工作?

    来源:渲大师一、GPU服务器有什么作用?GPU加速计算可以提供非凡的应用程序性能,能将应用程序计算密集部分的工作负载转移到
    的头像 发表于 07-08 10:16 430次阅读
    为什么需要专门出现<b class='flag-5'>GPU</b>处理图形工作?

    为什么需要专门出现GPU处理图形工作?GPU服务器有什么作用?

    来源: 渲大师 一、GPU服务器有什么作用? GPU 加速计算可以提供非凡的应用程序性能,能将应用程序计算密集部分的工作负载转移到
    的头像 发表于 07-07 10:15 665次阅读

    GPU如何在imx8m plus上工作以及GPU驱动程序如何集成到DRM驱动程序框架中?

    驱动程序不是开源的,但我没有找到任何 .ko 文件或其他东西。我发布这个问题是因为我想了解 GPU 如何在 imx8m plus 上工作以及 GPU 驱动程序如何集成到 DRM 驱动
    发表于 06-08 08:23

    如何检查imx6中的GPU使用情况?

    在板上运行 Qt6 应用程序,想观察该 Qt6 应用程序GPU 的使用情况。 如何检查应用程序GPU 使用情况或该应用
    发表于 05-22 07:04