0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA GPU助力腾讯PCG加速无量推荐系统

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 14:53 次阅读

案例简介

• 本案例中通过使用 NVIDIA GPU 加速平台,腾讯平台与内容事业群(PCG)深度学习平台实现了”无量推荐系统”模型训练到在线推理的全流程GPU加速,整体效能性价比提升1~3倍。

• 本案例主要应用到 NVIDIA A100 Tensor Core GPU以及相关软件的加速平台。

客户简介及应用背景

无量推荐系统承载着腾讯平台与内容事业群的推荐场景, 包括: 腾讯看点(浏览器,QQ看点,商业化),腾讯新闻,腾讯视频, 腾讯音乐,阅文,应用宝,小鹅拼拼等。无量推荐系统支持日活跃用户达数亿级别, 其中的模型数量达数千个,日均调用服务达到千亿级别。

无量推荐系统在模型训练和推理都能够进行海量Embedding和DNN模型的GPU计算, 是目前业界领先的体系结构设计。

客户挑战

传统推荐系统具有以下特点: 训练是基于参数服务器的框架,解决海量数据和稀疏特征的分布式训练问题。推理通常分离大规模Embedding和DNN,只能进行DNN的GPU加速。

所以,传统的推荐系统架构也具有局限性:

大规模分布式架构有大量的额外开销,比如参数和梯度的网络收发。

随着DNN模型复杂性的的进一步提升,CPU的计算速度开始捉襟见肘。

随着业务的快速增长,日活用户增多,对其调用数量快速增加,给推荐系统后台带来了新的挑战:

1, 模型更加复杂,计算量更大,但是参数服务器的分布式架构有效计算比很低。

2, 海量Embedding因为规模庞大,查询和聚合计算难以有效利用GPU高性能显存和算力的优势。

应用方案

基于以上的挑战, 腾讯选择使用基于NVIDIA A100 Tensor Core GPU的分布式系统架构来创建无量推荐系统。

1, 通过多级存储和Pipeline优化,在HPC上完成大规模推荐模型的GPU的高性能训练。

2, 基于特征访问Power-law分布的特性,GPU缓存高频特征参数,同时从CPU中动态获取低频特征参数,实现了大规模推荐模型完整的GPU端到端模型推理。

使用效果及影响

腾讯平台与内容事业群有多种类型的推荐业务场景。比如信息流推荐的QQ浏览器、QQ看点,新闻推荐的腾讯新闻,视频推荐的腾讯视频、微视,App推荐的应用宝,以及腾讯音乐的音乐推荐和阅文集团的文学推荐。

无量推荐系统承载了这些推荐业务场景的模型训练和推理服务。基于传统的推荐系统架构,无量使用大量CPU资源,通过分布式架构可以扩展到TB级模型的训练和部署,取得了巨大的成功。

随着业务的快速增长,日活用户增多,对其调用数量快速增加,传统架构局限性限制了推荐系统的架构扩展和性能提升。

通过使用GPU训练和推理,单机多卡的GPU算力可以达到数十台CPU机器的算力,节省了大量的额外分布式开销。通过充分利用A100 GPU高性能显存快速访问Embedding,以及并行算力处理DNN推理,单张A100 GPU可以在相同的延迟下推理10倍于CPU的打分样本。

目前基于GPU的推荐架构可以提升模型训练和推理性价比1~3倍。

展望未来,无量推荐系统将不断优化推荐模型在GPU上的应用,利用HPC多机多卡,混合精度等能力,进一步提高推荐场景使用GPU的性价比。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4597

    浏览量

    101750
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
收藏 人收藏

    评论

    相关推荐

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVID
    的头像 发表于 04-28 10:36 96次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 167次阅读

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 609次阅读
    <b class='flag-5'>NVIDIA</b>将在今年第二季度发布Blackwell架构的新一代<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>器“B100”

    如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作
    的头像 发表于 01-12 09:26 282次阅读
    如何选择<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虚拟化软件的组合方案呢?

    NVIDIA 初创加速计划 Omniverse 加速

    新的 AI 技术和迅速发展的应用正在改变各行各业,生成式 AI 已经展示出在艺术、设计、影视动画、互娱、建筑等领域加速内容创作的价值,助力实现高质量、高效率、多样化的内容生产,成为推动数字生产力变革
    的头像 发表于 12-04 20:35 401次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 439次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    创新企业云福利:腾讯云 × NVIDIA 初创加速计划

    助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长,最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心(DLI)优惠课程,以及免费的 GPU 技术支
    的头像 发表于 11-13 20:40 384次阅读
    创新企业云福利:<b class='flag-5'>腾讯</b>云 × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在GPU
    的头像 发表于 11-09 16:46 563次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!

    NVIDIA与NTT DOCOMO联手打造全球首个GPU加速5G网络,欧盟要求苹果开放生态

    级要求:开放封闭的生态系统,以促进更多的竞争和创新。 NVIDIA与NTT DOCOMO合作推出全球首个GPU加速5G网络 近日,NVIDIA
    的头像 发表于 09-27 21:20 506次阅读
    <b class='flag-5'>NVIDIA</b>与NTT DOCOMO联手打造全球首个<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>5G网络,欧盟要求苹果开放生态

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    。为了帮助满足这一需求,Oracle 云基础设施(OCI)于近日宣布,在 OCI Compute 上全面提供 NVIDIA H100 Tensor Core GPU ,同时 NVIDIA L40S
    的头像 发表于 09-25 20:40 289次阅读
    Oracle 云基础设施提供新的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b>计算实例

    “2023 腾讯全球数字生态大会” 今日隆重登场!NVIDIA 专家众星云集,邀您一同在线参与 9 月 8 日腾讯专场演讲

    的最新技术和应用,包括腾讯NVIDIA 的合作案例,NVIDIA 网络如何助力 AI 数据中心、NVIDIA L40S
    的头像 发表于 09-07 19:35 801次阅读

    CV-CUDA 助力腾讯云音视频 PaaS 平台实现视频增强 AI 全流程 GPU 加速

    案例介绍 腾讯云音视频 PaaS 平台与 NVIDIA 团队合作,利用  CV-CUDA  加速视频增强 AI 工作管线中的前后处理模块,结合  NVIDIA TensorRT ,将视
    的头像 发表于 07-28 17:05 466次阅读
    CV-CUDA <b class='flag-5'>助力</b><b class='flag-5'>腾讯</b>云音视频 PaaS 平台实现视频增强 AI 全流程 <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b>

    NVIDIA GPU 加速 WPS Office AI 服务,助力打造优质的用户体验

    案例介绍 金山办公与 NVIDIA 团队合作,通过 NVIDIA Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率;借助 NVIDIA Triton
    的头像 发表于 06-29 21:35 396次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b> WPS Office AI 服务,<b class='flag-5'>助力</b>打造优质的用户体验

    Snowflake 携手 NVIDIA 助力企业在数据云端利用数据实现生成式 AI

    式 AI 应用,而这一切都可以在 Snowflake 数据云中安全地实现。 凭借用于开发大语言模型(LLM)的 NVIDIA NeMo 平台 以及 NVIDIA GPU 加速计算 ,S
    的头像 发表于 06-27 21:10 270次阅读
    Snowflake 携手 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>助力</b>企业在数据云端利用数据实现生成式 AI

    NVIDIA GPU 助力三维家打造 3D 垂类大模型,引领家居设计变革

    案例简介 广东三维家信息科技有限公司(以下简称“三维家”),通过采用 NVIDIA GPUNVIDIA 推理加速引擎 TensorRT,提升了家装设计效率,使超分渲染整体时间比常
    的头像 发表于 05-17 05:55 306次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>助力</b>三维家打造 3D 垂类大模型,引领家居设计变革