0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Merlin HugeCTRV 3.8/3.9版本新增内容

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-24 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。

V3.8 版本新增内容

1. 第三代 Embedding 的示例:

这个版本我们新增了一个示例笔记本,介绍了 Embedding 集合的 Python API 以及第三代 Embedding 的使用方法。

2. 用于分级参数服务器查找功能的 DLPack Python API:

这个版本我们引入了对使用 DLPack Python API 从分层参数服务器 (HPS) 查找 Embedding 的支持。新方法是 lookup_fromdlpack()。

3. 使用 Python API 从 HDFS 读取 Parquet 数据集:

现在您可以通过 DataSourceParams 来指定 Data Reader 的数据源的配置了,例如 Hadoop 分布式文件系统的 NameNode 的主机名和 NameNode 端口号。

4. 提高了日志记录的性能。

5. 层类的改进:

全连接层现已支持 3 维输入,Matrix Multiply 层现已支持 4 维输入。

6. 文档的改进:

a. 增加了导航长页面以提供更好的体验。

b. Criteo 1TB 点击日志数据集的 URL 已更新。

7. 修复的问题:

修复了 _metadata.json 配置文件内的文件名和实际数据集文件名不一致的问题。

修复了在 AUC 预热期间在多个 GPU 上运行大型模型时发生的内存崩溃问题。

修复了 ETC 笔记本中键集生成的问题。

修复了使用调试模式编译时发生的编译错误。

修复多节点训练出现重复日志的问题。

V3.9 版本新增内容

1. 第三代 Embedding 的更新:

更新了 SOK 以使用 HugeCTR 第三代 Embedding 作为开发者预览版本。

启用了基于 cuCollection的动态Embedding 模式。动态的Embedding能够在用户不配置内存使用信息时自动拓展。

2. 全新的多节点训练教程:

我们提供了一个全新的基于 HugeCTR 最新 Docker 容器使用多节点训练的实例。

3. 现已支持 MMoE 模型的离线推理并提供了 Per-class AUC 和平均 AUC 计算。

4. 对 HPS TensorFlow 插件使用的文档和实例更新:

一个新的简介文档。

新的实例笔记本。

新的API文档。

5. 修复的问题:

修复了一个训练性能受到 GPU 例程检查影响的问题。该例程检查输入的 key 是否在规定的 Embedding Table 范围内。对于可以保证输入的 key 能放在指定的 workspace_size_per_gpu_in_mb 的情况,我们提供了一种解决方法:通过设置环境变量 HUGECTR_DISABLE_OVERFLOW_CHECK=1 来关闭例程检查,以便恢复训练性能。

我们修复了一个 Softmax 层的正确性问题。

我们删除了一个未更新且不再使用的内联分析器。

已知问题

以下是目前HugeCTR存在的已知问题,我们将在之后的版本中尽快修复。

HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令来增加这些资源 -shm-size=1g -ulimit memlock=-1

另见 NCCL 的 已知问题。

还有 GitHub 问题。

目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。

文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 data reader worker 将被映射到同一个文件,导致数据加载不会按预期进行。

正则化器暂时不支持联合损失训练。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136070
  • python
    +关注

    关注

    58

    文章

    4885

    浏览量

    90309
  • GitHub
    +关注

    关注

    3

    文章

    489

    浏览量

    18763

原文标题:HugeCTR v3.8 & v3.9 发布说明

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OpenAI正式发布ChatGPT Images 2.0版本

    在人工智能技术迅猛发展的浪潮中,OpenAI始终是引领行业变革的先锋力量。近日,OpenAI正式发布ChatGPT Images 2.0版本,这一消息如同一颗重磅炸弹,在科技圈引发了强烈反响,在
    的头像 发表于 04-22 11:32 1401次阅读

    开源欧拉社区正式发布openEuler Embedded 26.03版本

    近日,开源欧拉社区正式发布openEuler Embedded 26.03版本。新版本基于开源欧拉社区Intelligence BooM开源全栈,成功孵化IB-Robot具身智能机器人软件全栈项目
    的头像 发表于 04-22 10:47 338次阅读

    ASPICE 3.1 与 4.0 版本的核心差异:从软件专属到全系统覆盖(四)

    软件,4.0 新增硬件全流程管控 ASPICE v3.1版本 ASPICE 3.1 版本的核心聚焦于系统工程(SYS)与软件工程(SWE) 两大模块,仅覆盖车载软件与系统级的研发过程要求, 完全
    发表于 04-08 09:48

    索尼更新相机遥控软件开发包2.01版本

    2026年2月03日,索尼(中国)有限公司正式发布了可通过电脑远程操控索尼相机的相机遥控软件开发包(Camera Remote SDK)2.01版本,本次更新带来了2个新功能,新增支持机型ILCE-7M5、PXW-Z380、DSC-RX1RM3等。
    的头像 发表于 02-03 16:59 854次阅读

    西门子PCB DFM分析工具Valor NPI 2510版本新增功能

    Valor NPI 2510 版本新增多项检查功能、提升制造风险识别,并推出令人瞩目的 3D 可视化增强特性,这标志着产品的重大升级。Valor NPI 的 3D 视图经过重新设计,让可制造性设计 (DFM) 结果的查看更直观、精准。
    的头像 发表于 01-04 16:10 721次阅读
    西门子PCB DFM分析工具Valor NPI 2510<b class='flag-5'>版本</b>的<b class='flag-5'>新增</b>功能

    NVIDIA CUDA 13.1版本新增功能与改进

    NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来,规模最大、内容最全面的一次更新。
    的头像 发表于 12-13 10:08 2451次阅读

    瑞萨灵活配置软件包FSP 6.2.0版本的更新内容

    FSP(Flexible Software Package)灵活配置软件包是瑞萨电子(Renesas)为RA系列微控制器(MCU)家族开发的软件包。FSP自发布以来经过了数年的更新,现在已经来到了6.2.0版本
    的头像 发表于 12-11 16:42 1226次阅读
    瑞萨灵活配置软件包FSP 6.2.0<b class='flag-5'>版本</b>的更新<b class='flag-5'>内容</b>

    AMD Vivado Design Suite 2025.2版本现已发布

    AMD Vivado Design Suite 2025.2 版本现已发布,新增对 AMD Versal 自适应 SoC 的设计支持,包含新器件支持、QoR 功能及易用性增强。
    的头像 发表于 12-09 15:11 1329次阅读

    连接标准联盟正式推出Matter 1.5版本

    连接标准联盟(Connectivity Standards Alliance, CSA)上周推出 Matter 1.5 版本。该标准新增多个颇具影响力的设备类型及应用场景,包括对摄像头、闭合设备
    的头像 发表于 11-30 10:34 1297次阅读

    RT-Thread Studio V2.3.0 版本正式发布!

    RT-ThreadStudioV2.3.0亲爱的开发者们,我们很高兴地宣布RT-ThreadStudio版本更新啦!V2.3.0版正式发布!RT-ThreadStudioV2.3.0更新内容1新增
    的头像 发表于 11-29 09:29 1344次阅读
    RT-Thread Studio V2.3.0 <b class='flag-5'>版本</b>正式发布!

    Quartus Prime Pro 25.1版本的安装和使用

    如果用户开发板是基于Agilex 3、Agilex 5等高阶器件,则需要安装高版本的Quartus软件比如Quartus Prime Pro 25.1版本,这个版本在安装包和license获取(免费)等方面跟以往的Quartus
    的头像 发表于 10-07 13:06 3152次阅读
    Quartus Prime Pro 25.1<b class='flag-5'>版本</b>的安装和使用

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是一种面向图
    的头像 发表于 09-09 09:54 1266次阅读

    0.4 至 3.8 GHz SPDT 开关 skyworksinc

    电子发烧友网为你提供()0.4 至 3.8 GHz SPDT 开关相关产品参数、数据手册,更有0.4 至 3.8 GHz SPDT 开关的引脚图、接线图、封装手册、中文资料、英文资料,0.4 至
    发表于 08-01 18:34
    0.4 至 <b class='flag-5'>3.8</b> GHz SPDT 开关 skyworksinc

    CANoe产品体系19版本新特性及新增Option(上)

    版本持续助力当前车辆E/E架构中ECU开发验证,同时赋能后续智能网联电动车型预研验证。新版本CANoe产品体系新增数据驱动的DDS、车辆互联服务和高效电机模型库,进一步支持CANXL
    的头像 发表于 06-11 10:03 3226次阅读
    CANoe产品体系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    【案例3.9】电路板无法启动的故障分析

    【案例3.9】电路板无法启动的故障分析【现象描述】某设计,CPU以菊花链的方式接两片Flash存储器,CPU的引导程序存储在Flash存储器中,两片Flash存储器互为冗余备份。上电测试发现,多块
    的头像 发表于 06-07 09:04 927次阅读
    【案例<b class='flag-5'>3.9</b>】电路板无法启动的故障分析