0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

NVIDIA英伟达 来源:未知 2023-11-09 10:45 次阅读

通过 Merlin 大幅提升大规模深度多目标精排模型训练性能

本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPU Merlin 软件解决方案替代其原有解决方案。

通过使用 Merlin TensorFlow Plugin (即 Sparse Operation Kit,SOK) 和 HierarchicalKV(HKV),相较于原方案在相同规模模型和 GPU 下,显著提高了陌陌大规模深度多目标精排模型的训练性能。在不影响模型效果的前提下,模型整体吞吐提升了 5 倍以上,再结合通信和 IO 等进一步优化后,极限情况下可以提升 12 倍吞吐。

客户简介

挚文集团于 2011 年成立,2014 年 12 月 11 日在美国纳斯达克交易所挂牌上市(NASDAQ: MOMO),拥有陌陌、探探等多款手机应用,以及电影制作发行、节目制作等多元业务。陌陌是挚文集团于 2011 年 8 月推出的一款基于地理位置的移动视频社交应用,是中国领先的开放式社交平台之一。

训练速度面临挑战,

需有效提升算法迭代

陌陌的原始解决方案本质是基于 PS-Worker 的 CPU + GPU 混合训练方案,可支持大规模稀疏参数的训练。然而,随着用户规模的增加和业务的发展,对于推荐算法的准确度也有了更高的要求。这导致模型的复杂性和训练样本量显著增加,对单次模型训练速度和新模型算法探索效率都有更大的挑战。尽管原方案在功能上支持了大规模稀疏参数的训练,但在性能上难以满足业务日益增长的需求。因此,陌陌亟需对训练速度进行优化,加快算法迭代,以提高业务效果。

SOK 和 HKV

为推荐系统提升性能与灵活性

NVIDIA Merlin HugeCTR 是 NVIDIA 推出的可以高效利用 GPU 来进行推荐系统训练的解决方案,为了使它能直接被其他 DL 用户,比如 TensorFlow 所直接使用,NVIDIA 开发了 Merlin TensorFlow Plugin (以下简称 SOK),将 HugeCTR 中的高级特性封装为 TensorFlow 可直接调用的形式,从而帮助用户在 TensorFlow 中直接使用 HugeCTR 中的高级特性来加速他们的推荐系统。

wKgZomVMSOCAaFAxAAB8kg4r-to254.jpg

图 1. Merlin TensorFlow Plugin(SOK)模型并行示意图

Merlin TensorFlow Plugin 以数据并行的方式接收输入数据,将稀疏参数以模型并行的方式分布在多个 GPU 上,将稠密参数以数据并行的方式分布在多个 GPU 上,内部实现“数据并行-模型并行-数据并行”的转换流程。整个使用方式上尽可能的与原有 TensorFlow 算子对齐,减少对用户已有的代码的修改,以更方便、快捷地在多个 GPU 上进行扩展。此外,SOK 针对 embedding vector 的拷贝和 combiner 进行了高度优化和内核融合,使整个 lookup 的前后向过程拥有更好的性能。

Merlin HierarchicalKV (以下简称HKV)是 Merlin 下的针对于推荐系统训练设计的 KV 加速库。为兼容大模型训练支持了层次化动态 Embedding 存储(CPU+GPU),灵活的 eviction(淘汰) 机制和丰富的 API。目前已经集成入 SOK, 协同加速推荐系统 Embedding 的相关计算。

在应用了 SOK 和 HKV 后,相同规模模型和 GPU 下,陌陌精排模型的训练性能相比于原方案,整体吞吐提升了 5 倍以上。除此之外,陌陌推荐团队在当前 SOK + HKV 的架构基础上,基于业务场景特点,进一步优化整体性能,包括梯度合并,减少梯度计算的通信开销;并行特征数据读取与转换,以及特征数据预取到 GPU 等操作提速特征 IO;使用 XLA 进行编译优化,融合 kernel 以减少 kernel launch 时间;设置 GPU 亲和等操作,使得整体性能提升达到 12 倍。

wKgZomVMSOCASRl0AABRC-I4vSg388.jpg

图 2. 性能加速效果

在陌陌的实际应用中,动态 Embedding 的特性大大简化了推荐系统中连续训练需人工控制显存中 embedding tab 大小的问题。而 SOK 与 HKV 为陌陌提供了完整的功能和性能支持。

除此之外,我们跟陌陌的合作过程中,也结合产品部署中的需求进一步对产品进行了性能优化和功能迭代,比如:

SOK 针对 embedding vector 的拷贝和 combiner 进行了高度优化和 kernel 融合,使整个 lookup 的前后向过程拥有更好的性能。

在陌陌 GPU 高水位线的实际业务中,基于陌陌的测试和反馈,SOK 通过优化了性能和功能的平衡点,使得其在保证性能的基础上,稳定性也大大提升。

另外,在陌陌的实际应用中,面临着模型实时训练的挑战,即需要减少对计算资源的占用,因此我们引入了 HKV,它支持了层次化动态嵌入存储(包括 CPU 和 GPU),并提供了灵活的 eviction 机制以及丰富的 API。这种引入在降低资源占用的同时,也提高了系统的灵活性。

陌陌的实际业务场景和 GPU 使用方式对于 SOK 的开发和迭代提供了非常宝贵的经验,同时陌陌的大量测试反馈也帮助 SOK 提升了应对复杂场景的能力,使得 SOK 的 feature 更加稳定和贴近客户。

持续合作:

优化推荐模型性能,降低训练成本

双方团队通过 SOK 和 HKV 对原方案进行深度优化后,成功帮助陌陌提升了 12 倍的训练效率,极大的降低了模型训练的成本和新模型算法尝试的成本。目前,整体方案已上线,全面支持陌陌推荐系统模型训练。

近期,NVIDIA 团队还与陌陌进行了基于 Transformer 的推荐模型性能优化。NVIDIA JOC 团队和 Merlin 团队基于客户的模型做了一系列性能分析,将 XLA+AMP+半精度 allreduce 应用到该模型上后,端到端性能实现了 50% 的加速。在此基础上,团队们进一步对性能热点 multi-head-attention 部分进行优化,正在将 Flash-Attention 以 tf-plugin 形式进行集成,预计此项优化集成后,整体加速比可达到 3 倍,同时整体的优化方案使得显存使用量下降约 70%,可以显著地缓解显存紧张的问题。

未来,陌陌与 NVIDIA 将继续在推荐系统训练和推理等方面持续合作,持续推进 GPU 和 AI 软件加速计算在陌陌的全面落地,期待能够为陌陌的业务及场景应用带来更大的价值。

了解更多本案例中相关的 NVIDIA 产品信息,敬请查阅:

  • NVIDIA Merlin:

    https://developer.nvidia.cn/merlin

  • Merlin TensorFlow Plugin (SOK) :

    https://github.com/NVIDIA-Merlin/HugeCTR/tree/main/sparse_operation_kit

  • Merlin HierarchicalKV (HKV):

    https://github.com/NVIDIA-Merlin/HierarchicalKV

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3327

    浏览量

    87770

原文标题:NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 161次阅读

    降本增效:NVIDIA路径优化引擎创下多项世界纪录!

    NVIDIA cuOpt 路径优化引擎助力川崎重工实现铁路安全,支持 SyncTwin 实现制造优化
    的头像 发表于 04-03 11:17 170次阅读

    基于NVIDIA Megatron Core的MOE LLM实现训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现训练优化上的
    的头像 发表于 03-22 09:50 161次阅读
    基于<b class='flag-5'>NVIDIA</b> Megatron Core的MOE LLM<b class='flag-5'>实现</b>和<b class='flag-5'>训练</b><b class='flag-5'>优化</b>

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA 软件实现了跨  Blackwell GPU、新交换机和 BlueField-3 SuperNIC 的分布式计算,大幅提升了 AI、数据处理、高性能计算和云工作负载的性能
    发表于 03-19 10:05 115次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面<b class='flag-5'>优化</b>万亿参数级 GPU 计算和 AI 基础设施

    基于NVIDIA DOCA 2.6实现高性能和安全的AI云设计

    网络平台上快速创建应用程序和服务,并启用 NVIDIA BlueField DPU 和 NVIDIA BlueField SuperNIC 的强大功能,提供突破性的网络、安全和存储性能
    的头像 发表于 02-23 10:02 181次阅读

    SAP半导体及光伏行业最佳业务实

    电子发烧友网站提供《SAP半导体及光伏行业最佳业务实践.ppt》资料免费下载
    发表于 11-02 14:32 0次下载
    SAP半导体及光伏行业最佳<b class='flag-5'>业务实</b>践

    如何搭建高效推荐系统?用Milvus和NVIDIA Merlin搭建高效推荐系统

    之后,推荐系统能够给出高度个性化的推荐结果,从而提升产品的用户体验。 为了方便大家对此进行深入了解,我们邀请到 NVIDIA Merlin  团队 ,他们将详细介绍推荐系统的上述多个阶段的工作流程,以及推荐系统在电商、流媒体、社交媒体等多个行业
    的头像 发表于 11-01 09:30 657次阅读
    如何搭建高效推荐系统?用Milvus和<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Merlin</b>搭建高效推荐系统

    NVIDIA AI Enterprise 4.0 推出,助力企业构建生产就绪的生成式 AI 为业务赋能

    时。NVIDIA 正在将专业知识投入到解决方案的开发过程中,助力企业实现这样的飞跃。 推出 NVIDIA AI Enterprise 4.0 最新版 
    的头像 发表于 09-19 20:20 391次阅读
    <b class='flag-5'>NVIDIA</b> AI Enterprise 4.0 推出,<b class='flag-5'>助力</b>企业构建生产就绪的生成式 AI 为<b class='flag-5'>业务</b>赋能

    高性能轻量级应用服务器,华为云云耀云服务器 L 实例助力业务快速发展

    ,成为了助力业务快速发展的首选。         华为云云耀云服务器 L 实例是一种基于云计算技术的虚拟服务器实例,它具备高性能和轻量级的特点。首先,其智能不卡顿的特点使其在性能方面领
    的头像 发表于 09-11 11:33 359次阅读
    <b class='flag-5'>高性能</b>轻量级应用服务器,华为云云耀云服务器 L 实例<b class='flag-5'>助力</b><b class='flag-5'>业务</b>快速发展

    NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升

    腾讯网络平台部与数据平台部,联合 NVIDIA 合作开发和优化 Spark UCX,最终实现 Spark Shuffle 稳定加速 15% - 20%,平均降低现网 Spark 任务
    的头像 发表于 08-25 20:50 422次阅读
    <b class='flag-5'>NVIDIA</b> 携手腾讯开发和<b class='flag-5'>优化</b> Spark UCX <b class='flag-5'>实现</b><b class='flag-5'>性能</b>跃升

    在线研讨会 | 就在明天!NVIDIA TAO Toolkit 5.0 助力 OCR 视觉 AI 模型快速训练优化

    技术的应用广泛,但构建和优化 OCR 的 AI 模型并非易事。它需要深厚的计算机科学知识,精细的编程技巧,以及对 AI 模型优化的深入理解。 NVIDIA TAO  是一款强大的 AI 模型
    的头像 发表于 08-21 21:05 297次阅读
    在线研讨会 | 就在明天!<b class='flag-5'>NVIDIA</b> TAO Toolkit 5.0 <b class='flag-5'>助力</b> OCR 视觉 AI 模型快速<b class='flag-5'>训练</b>与<b class='flag-5'>优化</b>

    支持双NVIDIA GPU 研华新品高性能边缘AI系统AIR-500D重磅推出!

    近期,全球物联网方案提供厂商研华隆重发布了一款支持双NVIDIA RTX GPU的全新高性能Al系统—AIR-500D。该解决方案预装Intel Xeon D-1700处理器和双高性能GPU
    的头像 发表于 08-03 15:22 410次阅读
    支持双<b class='flag-5'>NVIDIA</b> GPU 研华新品<b class='flag-5'>高性能</b>边缘AI系统AIR-500D重磅推出!

    智能网卡简介及其在高性能计算中的作用

    最先进的人工智能模型在不到五年的时间内经历了超过 5,000 倍的规模扩展。这些 AI 模型严重依赖复杂的计算和大量内存来实现高性能深度神经网络 (DNN)。只有使用 CPU、GPU 或专用芯片等
    发表于 07-28 10:10

    Fujitsu、NVIDIA、AMD和Intel高性能处理器架构分析

    商用高性能计算处理器市场主要被NVIDIA、AMD和Intel3家公司长期占据,在面向E级计算 的 高 性 能 处 理 器 中,AMD 最 新 的Instinct MI250X处理器双精度浮点运算
    发表于 06-30 09:49 660次阅读
    Fujitsu、<b class='flag-5'>NVIDIA</b>、AMD和Intel<b class='flag-5'>高性能</b>处理器架构分析

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60%
    的头像 发表于 05-26 07:15 444次阅读
    <b class='flag-5'>NVIDIA</b> AI 技术<b class='flag-5'>助力</b> vivo 文本预<b class='flag-5'>训练</b>大模型<b class='flag-5'>性能</b>提升