0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Merlin HugeCTRV 3.8/3.9版本新增内容

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-24 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。

V3.8 版本新增内容

1. 第三代 Embedding 的示例:

这个版本我们新增了一个示例笔记本,介绍了 Embedding 集合的 Python API 以及第三代 Embedding 的使用方法。

2. 用于分级参数服务器查找功能的 DLPack Python API:

这个版本我们引入了对使用 DLPack Python API 从分层参数服务器 (HPS) 查找 Embedding 的支持。新方法是 lookup_fromdlpack()。

3. 使用 Python API 从 HDFS 读取 Parquet 数据集:

现在您可以通过 DataSourceParams 来指定 Data Reader 的数据源的配置了,例如 Hadoop 分布式文件系统的 NameNode 的主机名和 NameNode 端口号。

4. 提高了日志记录的性能。

5. 层类的改进:

全连接层现已支持 3 维输入,Matrix Multiply 层现已支持 4 维输入。

6. 文档的改进:

a. 增加了导航长页面以提供更好的体验。

b. Criteo 1TB 点击日志数据集的 URL 已更新。

7. 修复的问题:

修复了 _metadata.json 配置文件内的文件名和实际数据集文件名不一致的问题。

修复了在 AUC 预热期间在多个 GPU 上运行大型模型时发生的内存崩溃问题。

修复了 ETC 笔记本中键集生成的问题。

修复了使用调试模式编译时发生的编译错误。

修复多节点训练出现重复日志的问题。

V3.9 版本新增内容

1. 第三代 Embedding 的更新:

更新了 SOK 以使用 HugeCTR 第三代 Embedding 作为开发者预览版本。

启用了基于 cuCollection的动态Embedding 模式。动态的Embedding能够在用户不配置内存使用信息时自动拓展。

2. 全新的多节点训练教程:

我们提供了一个全新的基于 HugeCTR 最新 Docker 容器使用多节点训练的实例。

3. 现已支持 MMoE 模型的离线推理并提供了 Per-class AUC 和平均 AUC 计算。

4. 对 HPS TensorFlow 插件使用的文档和实例更新:

一个新的简介文档。

新的实例笔记本。

新的API文档。

5. 修复的问题:

修复了一个训练性能受到 GPU 例程检查影响的问题。该例程检查输入的 key 是否在规定的 Embedding Table 范围内。对于可以保证输入的 key 能放在指定的 workspace_size_per_gpu_in_mb 的情况,我们提供了一种解决方法:通过设置环境变量 HUGECTR_DISABLE_OVERFLOW_CHECK=1 来关闭例程检查,以便恢复训练性能。

我们修复了一个 Softmax 层的正确性问题。

我们删除了一个未更新且不再使用的内联分析器。

已知问题

以下是目前HugeCTR存在的已知问题,我们将在之后的版本中尽快修复。

HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令来增加这些资源 -shm-size=1g -ulimit memlock=-1

另见 NCCL 的 已知问题。

还有 GitHub 问题。

目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。

文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 data reader worker 将被映射到同一个文件,导致数据加载不会按预期进行。

正则化器暂时不支持联合损失训练。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134429
  • python
    +关注

    关注

    57

    文章

    4856

    浏览量

    89554
  • GitHub
    +关注

    关注

    3

    文章

    484

    浏览量

    18417

原文标题:HugeCTR v3.8 & v3.9 发布说明

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    连接标准联盟正式推出Matter 1.5版本

    连接标准联盟(Connectivity Standards Alliance, CSA)上周推出 Matter 1.5 版本。该标准新增多个颇具影响力的设备类型及应用场景,包括对摄像头、闭合设备
    的头像 发表于 11-30 10:34 533次阅读

    RT-Thread Studio V2.3.0 版本正式发布!

    RT-ThreadStudioV2.3.0亲爱的开发者们,我们很高兴地宣布RT-ThreadStudio版本更新啦!V2.3.0版正式发布!RT-ThreadStudioV2.3.0更新内容1新增
    的头像 发表于 11-29 09:29 684次阅读
    RT-Thread Studio V2.3.0 <b class='flag-5'>版本</b>正式发布!

    Quartus Prime Pro 25.1版本的安装和使用

    如果用户开发板是基于Agilex 3、Agilex 5等高阶器件,则需要安装高版本的Quartus软件比如Quartus Prime Pro 25.1版本,这个版本在安装包和license获取(免费)等方面跟以往的Quartus
    的头像 发表于 10-07 13:06 2023次阅读
    Quartus Prime Pro 25.1<b class='flag-5'>版本</b>的安装和使用

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是一种面向图
    的头像 发表于 09-09 09:54 719次阅读

    0.4 至 3.8 GHz SPDT 开关 skyworksinc

    电子发烧友网为你提供()0.4 至 3.8 GHz SPDT 开关相关产品参数、数据手册,更有0.4 至 3.8 GHz SPDT 开关的引脚图、接线图、封装手册、中文资料、英文资料,0.4 至
    发表于 08-01 18:34
    0.4 至 <b class='flag-5'>3.8</b> GHz SPDT 开关 skyworksinc

    CANoe产品体系19版本新特性及新增Option(上)

    版本持续助力当前车辆E/E架构中ECU开发验证,同时赋能后续智能网联电动车型预研验证。新版本CANoe产品体系新增数据驱动的DDS、车辆互联服务和高效电机模型库,进一步支持CANXL
    的头像 发表于 06-11 10:03 2517次阅读
    CANoe产品体系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    【案例3.9】电路板无法启动的故障分析

    【案例3.9】电路板无法启动的故障分析【现象描述】某设计,CPU以菊花链的方式接两片Flash存储器,CPU的引导程序存储在Flash存储器中,两片Flash存储器互为冗余备份。上电测试发现,多块
    的头像 发表于 06-07 09:04 513次阅读
    【案例<b class='flag-5'>3.9</b>】电路板无法启动的故障分析

    如何在Ubuntu 24.04上运行5.4.47版本

    构建 Yocto 包,但并没有真正工作。第一个问题是 Python 版本。您肯定需要使用 2.7 和 3.9 版本,它们不能直接使用。通过使用 pyenv,可以解决 Python 问题。 现在我最终
    发表于 04-11 06:08

    Altium Designer 25.4.2版本的新功能

    在原理图元件的属性中,新增了对动态(条目级)参数的可见性支持。这些动态参数的值可以在源数据库 / PLM系统中进行更改,并同步到已放置的工作区库元件中,而无需创建这些元件的新修订版本。现在,当在
    的头像 发表于 03-24 11:34 1583次阅读
    Altium Designer 25.4.2<b class='flag-5'>版本</b>的新功能

    芯来科技发布Nuclei Studio 2025.02版本

    Studio 2025.02版本发布了以下功能特性: 集成Nuclei RISC-V Toolchain /OpenOCD /QEMU /Xlmodel 2025.02版本
    的头像 发表于 03-05 17:43 1764次阅读
    芯来科技发布Nuclei Studio 2025.02<b class='flag-5'>版本</b>

    DLPR150PROM-2.3.1版本的固件是否包含图像信息,如何切换图像?

    DLPR150PROM-2.3.1版本的固件是否包含图像信息,如何切换图像?DLPC150 Programmer’s Guide文档没有相关内容
    发表于 02-21 06:53

    Ludovic v7.2.4 新版本更新内容

    Ludovic从v7.0.7到v7.2.4历经v7.1、v7.2、v7.2.3三个版本,软件在功能和求解计算方面有了很大的提升,具体的更新内容如下。 Ludovic 7.2.4更新说明 分离熔化产品
    的头像 发表于 02-19 09:24 1125次阅读
    Ludovic v7.2.4 新<b class='flag-5'>版本</b>更新<b class='flag-5'>内容</b>

    motorBench 2.45.0版本说明

    电子发烧友网站提供《motorBench 2.45.0版本说明.pdf》资料免费下载
    发表于 01-22 16:15 0次下载
    motorBench 2.45.0<b class='flag-5'>版本</b>说明

    HDMI Forum发布HDMI规范2.2版本

    迈出了重要一步。 HDMI规范2.2版本内容制作商,如电视、电影和游戏工作室等,提供了更高质量的选择。无论是当前还是未来,这一新技术都能满足内容制作商对于高清画质和高效传输的需求。同时,它还能实现多种分发平台,为用户提供更加丰
    的头像 发表于 01-10 14:07 869次阅读

    OurBMC 24.12版本正式上线

    日前,经过社区开发者的共同努力,OurBMC 全新升级,24.12版本正式上线。
    的头像 发表于 01-07 13:45 1290次阅读