0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA GPU助力腾讯PCG加速无量推荐系统

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 14:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

• 本案例中通过使用 NVIDIA GPU 加速平台,腾讯平台与内容事业群(PCG)深度学习平台实现了”无量推荐系统”模型训练到在线推理的全流程GPU加速,整体效能性价比提升1~3倍。

• 本案例主要应用到 NVIDIA A100 Tensor Core GPU以及相关软件的加速平台。

客户简介及应用背景

无量推荐系统承载着腾讯平台与内容事业群的推荐场景, 包括: 腾讯看点(浏览器,QQ看点,商业化),腾讯新闻,腾讯视频, 腾讯音乐,阅文,应用宝,小鹅拼拼等。无量推荐系统支持日活跃用户达数亿级别, 其中的模型数量达数千个,日均调用服务达到千亿级别。

无量推荐系统在模型训练和推理都能够进行海量Embedding和DNN模型的GPU计算, 是目前业界领先的体系结构设计。

客户挑战

传统推荐系统具有以下特点: 训练是基于参数服务器的框架,解决海量数据和稀疏特征的分布式训练问题。推理通常分离大规模Embedding和DNN,只能进行DNN的GPU加速。

所以,传统的推荐系统架构也具有局限性:

大规模分布式架构有大量的额外开销,比如参数和梯度的网络收发。

随着DNN模型复杂性的的进一步提升,CPU的计算速度开始捉襟见肘。

随着业务的快速增长,日活用户增多,对其调用数量快速增加,给推荐系统后台带来了新的挑战:

1, 模型更加复杂,计算量更大,但是参数服务器的分布式架构有效计算比很低。

2, 海量Embedding因为规模庞大,查询和聚合计算难以有效利用GPU高性能显存和算力的优势。

应用方案

基于以上的挑战, 腾讯选择使用基于NVIDIA A100 Tensor Core GPU的分布式系统架构来创建无量推荐系统。

1, 通过多级存储和Pipeline优化,在HPC上完成大规模推荐模型的GPU的高性能训练。

2, 基于特征访问Power-law分布的特性,GPU缓存高频特征参数,同时从CPU中动态获取低频特征参数,实现了大规模推荐模型完整的GPU端到端模型推理。

使用效果及影响

腾讯平台与内容事业群有多种类型的推荐业务场景。比如信息流推荐的QQ浏览器、QQ看点,新闻推荐的腾讯新闻,视频推荐的腾讯视频、微视,App推荐的应用宝,以及腾讯音乐的音乐推荐和阅文集团的文学推荐。

无量推荐系统承载了这些推荐业务场景的模型训练和推理服务。基于传统的推荐系统架构,无量使用大量CPU资源,通过分布式架构可以扩展到TB级模型的训练和部署,取得了巨大的成功。

随着业务的快速增长,日活用户增多,对其调用数量快速增加,传统架构局限性限制了推荐系统的架构扩展和性能提升。

通过使用GPU训练和推理,单机多卡的GPU算力可以达到数十台CPU机器的算力,节省了大量的额外分布式开销。通过充分利用A100 GPU高性能显存快速访问Embedding,以及并行算力处理DNN推理,单张A100 GPU可以在相同的延迟下推理10倍于CPU的打分样本。

目前基于GPU的推荐架构可以提升模型训练和推理性价比1~3倍。

展望未来,无量推荐系统将不断优化推荐模型在GPU上的应用,利用HPC多机多卡,混合精度等能力,进一步提高推荐场景使用GPU的性价比。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109117
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134482
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 3833次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    FPGA和GPU加速的视觉SLAM系统中特征检测器研究

    Nvidia Jetson Orin与AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)与对应FPGA加速方案的性能,得出全新结论。
    的头像 发表于 10-31 09:30 309次阅读
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的视觉SLAM<b class='flag-5'>系统</b>中特征检测器研究

    OpenAI和NVIDIA宣布达成合作,部署10吉瓦NVIDIA系统

    此次合作将助力 OpenAI 构建和部署至少 10 吉瓦(gigawatt)的 AI 数据中心,这些数据中心将采用 NVIDIA 系统,包含数百万块 NVIDIA
    的头像 发表于 09-23 14:37 1223次阅读
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布达成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b><b class='flag-5'>系统</b>

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 2936次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1012次阅读

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的 NVIDIA
    的头像 发表于 03-28 09:59 1084次阅读

    NVIDIA助力解决量子计算领域重大挑战

    NVIDIA 加速量子研究中心提供了强大的工具,助力解决量子计算领域的重大挑战。
    的头像 发表于 03-27 09:17 1005次阅读

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。
    的头像 发表于 03-25 15:09 911次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark<b class='flag-5'>助力</b>企业节省大量成本

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织加速创建代理式
    发表于 03-19 15:24 471次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企业<b class='flag-5'>加速</b>代理式 AI 推理

    NVIDIA GPU助力科研人员探索外星世界

    NVIDIA GPU 驱动的深度学习在短短几秒内解读出了卡西尼号土星探测器多年来收集的海量数据,为科研人员探索外星世界提供了更加智能的方式。
    的头像 发表于 02-27 10:37 850次阅读

    利用NVIDIA DPF引领DPU加速云计算的未来

    越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF),该框架提供了基础构建模块来释放 NVIDIA BlueField
    的头像 发表于 01-24 09:29 1289次阅读
    利用<b class='flag-5'>NVIDIA</b> DPF引领DPU<b class='flag-5'>加速</b>云计算的未来

    NVIDIA助力FinCatch开发智能投资辅助系统

    本案例中通过 NVIDIA GPU 和 RAPIDS 加速平台,FinCatch 实现了投资研究流程的全面智能化,提升数据分析速度和准确性,帮助投资者快速获取可操作的投资洞察。
    的头像 发表于 01-07 09:23 801次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 1268次阅读

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升产品竞争力。
    的头像 发表于 12-27 16:24 1166次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 -
    发表于 12-16 14:25