0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU加速的推荐程序框架Merlin HugeCTR

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-03-20 15:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。

此次v3.4更新涉及的模块主要为:

HugeCTR 分级参数服务器

HugeCTR Python API

相关介绍:

HugeCTR 分级参数服务器介绍

V3.4.1 版本新增内容

调整了整个代码库中日志消息的日志级别。

现已支持对具有多个标签的数据集进行推理:

“Softmax” 层现在已支持 FP16,并且支持混合精度以进行多标签推理。

支持多 GPU 离线推理:

我们通过 Python 接口支持多 GPU 离线推理,它可以利用Hierarchical Parameter Server

并在多个设备上实现并发执行。更多信息请参考推理 API和多 GPU 离线推理笔记本。

HPS 已构建为独立库:

我们重构了代码库并将分层参数服务器构建为一个独立的库,以后会进一步封装。

metadata.json 简介:

添加了有关 Parquet data 中 _metadata.json 的详细信息。

增加了用于估计每个 GPU 的词汇量大小的文档和工具:

我们添加了一个工具来计算每个 GPU 的不同嵌入类型的词汇量大小,在此基础上,workspace_size_per_gpu_in_mb 可以根据嵌入向量大小和优化器类型评估更多信息请参考脚本:

训练中支持 HDFS :

a. 现在支持从 HDFS 加载和存储模型和优化器状态。

b. 增加了编译选项使 HDFS 的支持更加灵活。

c. 添加了一个笔记本来展示如何将 HugeCTR 与 HDFS 一起使用:

增加了一个演示如何分析模型文件的 Python 脚本和笔记本

错误修复:修复了SOK 中的镜像策略错误。

修复了无法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02 中导入稀疏操作工具包的问题。

HugeCTR 参数服务器:修复了在未配置 RocksDB 时,可能会在初始化期间发生的访问冲突问题。

已知问题

HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令(-shm-size=1g -ulimit memlock=-1) 来增加这些资源。

另见 NCCL 的 已知问题

还有 GitHub 问题

目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。

文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 worker 将被映射到同一个文件,从而导致数据加载不会按预期进行。

正则化器暂不支持联合损失训练。

原文标题:Merlin HugeCTR v3.4.1 发布说明

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 接口
    +关注

    关注

    33

    文章

    9639

    浏览量

    157817
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5329

    浏览量

    136222
  • 工具包
    +关注

    关注

    0

    文章

    48

    浏览量

    9933

原文标题:Merlin HugeCTR v3.4.1 发布说明

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AMD正式推出Instinct MI350P PCIe GPU加速

    AMD于2026年5月8日正式推出Instinct MI350P PCIe GPU加速卡,作为四年来首款面向企业级市场的PCIe接口Instinct系列产品,其以“精简架构+极致能效”为核心,专为AI推理任务优化,实现从部署到运行的“开箱即用”体验,重新定义企业级AI
    的头像 发表于 05-08 11:25 674次阅读

    GPU负重前行:一组实验看懂视频色彩空间转换的真相

    GPU加速视频处理,工程师都知道。但它默默扛下了多少?ZLG致远电子D9340核心板实测:开GPU,CPU占用砍半。GPU:视频处理的隐形劳模GP
    的头像 发表于 04-17 11:35 175次阅读
    <b class='flag-5'>GPU</b>负重前行:一组实验看懂视频色彩空间转换的真相

    基于openEuler平台的CPU、GPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出色,能够高效调度 CPU、GPU、FPGA 及 AI 加速器,实现异构计算协同。
    的头像 发表于 04-08 11:02 1440次阅读
    基于openEuler平台的CPU、<b class='flag-5'>GPU</b>与FPGA异构<b class='flag-5'>加速</b>实战

    NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

    此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于实现大规模 AI 工作负载的全新开源项目。
    的头像 发表于 04-01 09:10 887次阅读

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2
    发表于 03-13 06:38

    二进制 GPU 驱动程序需要什么才能启动?

    二进制 GPU 驱动程序需要什么才能启动? 我想的是 USB、SD 卡、HDMI 和 ETH。 我猜音频没有 DAC,所以我们需要使用 USB 耳机加密狗?
    发表于 03-13 06:00

    瀚博半导体GPU云底座与一体机方案支持OpenClaw开源AI智能体框架

    瀚博半导体,以创新的GPU云底座与一体机方案,支持OpenClaw开源AI智能体框架,全天候运行AI智能体,在大幅提升数字生产力的同时保证数据安全与隐私安全,让智能体真正落地千行百业。
    的头像 发表于 03-11 13:39 792次阅读
    瀚博半导体<b class='flag-5'>GPU</b>云底座与一体机方案支持OpenClaw开源AI智能体<b class='flag-5'>框架</b>

    RSoft GPU加速技术重塑光子元件设计效率革命

    设计效率。为了解决这个问题,RSoft 光子器件工具的 FullWAVE FDTD 模组中引入 GPU 加速,通过 NVIDIA GPU 的平行运算能力,使得模拟速度相比 CPU 计算大幅提升。
    的头像 发表于 01-12 14:09 479次阅读
    RSoft <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>技术重塑光子元件设计效率革命

    沐曦股份GPU加速技术助力药物研发降本增效

    沐曦股份科学计算团队近期取得突破性进展,成功将主流分子动力学模拟引擎GROMACS中的FEP计算全流程部署于GPU执行,并实现2.5倍性能提升,相关成果获得GROMACS官方团队的高度认可,该GPU
    的头像 发表于 12-02 15:58 951次阅读

    新思科技亮相微软Ignite大会,展示数字孪生赋能的制造流程优化框架

    框架集成了英伟达Omniverse库、英伟达CUDA-X库、微软Azure™以及加速的新思科技物理引擎,已证实能够近乎实时地优化灌装包装生产线,并拓展了仿真技术驱动洞察的应用范围 摘要: · 该
    的头像 发表于 12-01 14:41 751次阅读

    FPGA和GPU加速的视觉SLAM系统中特征检测器研究

    (Nvidia Jetson Orin与AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)与对应FPGA加速方案的性能,得出全新结论。
    的头像 发表于 10-31 09:30 950次阅读
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的视觉SLAM系统中特征检测器研究

    PYQT 应用程序框架及开发工具

    大家好,本团队此次分享的内容为开发过程中使用到的PYQT 应用程序框架及开发工具。 pYqt 是一个多平台的 python 图形用户界面应用程序框架,由于其面向对象、 易扩展(可
    发表于 10-29 07:15

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI企业不光用GPU,也不怎么迷信TPU了?他们嘴里多了一个新词儿——智算加速卡。
    的头像 发表于 06-05 13:39 2045次阅读
    智算<b class='flag-5'>加速</b>卡是什么东西?它真能在AI战场上干掉<b class='flag-5'>GPU</b>和TPU!