NVIDIA GPU助力提升模型训练和推理性价比-电子发烧友网

无量推荐系统承载着腾讯PCG（平台与内容事业群）的推荐场景，包括：腾讯看点（浏览器、QQ看点、商业化）、腾讯新闻、腾讯视频、腾讯音乐、阅文、应用宝、小鹅拼拼等。无量推荐系统支持日活跃用户达数亿级别，其中的模型数量达数千个，日均调用服务达到千亿级别。无量推荐系统，在模型训练和推理都能够进行海量Embedding和DNN模型的GPU计算，是目前业界领先的体系结构设计。

传统推荐系统面临挑战

传统推荐系统具有以下特点：训练是基于参数服务器的框架，解决海量数据和稀疏特征的分布式训练问题。推理通常分离大规模Embedding和DNN，只能进行DNN的GPU加速。所以，传统的推荐系统架构具有一些局限性：1. 大规模分布式架构有大量的额外开销，比如参数和梯度的网络收发。2. 随着DNN模型复杂性的的进一步提升，CPU的计算速度开始捉襟见肘。随着业务的快速增长，日活用户增多，对其调用数量快速增加，给推荐系统后台带来了新的挑战：1. 模型更加复杂，计算量更大，但是参数服务器的分布式架构有效计算比很低。2. 海量Embedding因为规模庞大，查询和聚合计算难以有效利用GPU高性能显存和算力的优势。

GPU助力提升模型训练和推理性价比

基于以上的挑战，腾讯PCG（平台与内容事业群）选择使用基于NVIDIA A100 GPU的分布式系统架构来创建无量推荐系统。

1. 通过多级存储和Pipeline优化，在HPC上完成大规模推荐模型的GPU的高性能训练。2. 基于特征访问Power-law分布的特性，GPU缓存高频特征参数，同时从CPU中动态获取低频特征参数，实现了大规模推荐模型完整的GPU端到端模型推理。

腾讯PCG有多种类型的推荐业务场景。比如信息流推荐的QQ浏览器、QQ看点、新闻推荐的腾讯新闻、视频推荐的腾讯视频、微视、App推荐的应用宝、以及腾讯音乐的音乐推荐和阅文集团的文学推荐。

无量推荐系统承载了这些推荐业务场景的模型训练和推理服务。基于传统的推荐系统架构，无量推荐系统使用大量CPU资源，通过分布式架构可以扩展到TB级模型的训练和部署，取得了巨大的成功。随着业务的快速增长，日活用户增多，对其调用数量快速增加，传统架构局限性限制了推荐系统的架构扩展和性能提升。

通过使用GPU训练和推理，单机多卡的GPU算力可以达到数十台CPU机器的算力，节省了大量的额外分布式开销。通过充分利用A100 GPU高性能显存快速访问Embedding，以及并行算力处理DNN推理，单张A100 GPU可以在相同的延迟下推理10倍于CPU的打分样本。目前基于GPU的推荐架构可以提升模型训练和推理性价比1~3倍。

未来，无量推荐系统将不断优化推荐模型在GPU上的应用，利用HPC多机多卡，混合精度等能力，进一步提高推荐场景使用GPU的性价比。

重磅！NVIDIA行业微站一睹为快！内容涵盖NVIDIA主要的12大行业方案，以及NVIDIA当期重点产品资料。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4588

浏览量
101702

原文标题：NVIDIA A100 GPU助力腾讯PCG加速无量推荐系统

文章出处：【微信号：murata-eetrend，微信公众号：murata-eetrend】欢迎添加关注！文章转载请注明出处。

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •152次阅读

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步提升

发表于 04-10 11:48 •80次阅读

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch TensorRT就是这两者的结合。

发表于 01-09 16:41 •386次阅读

Torch TensorRT是一个优化PyTorch<b class='flag-5'>模型</b><b class='flag-5'>推理性</b>能的工具

CPU也可以完美运行大模型英特尔第五代至强重磅发布

处理器,它来了! 若是用一句话来概括它的特点,那就是——AI味道越发得浓厚。以训练、推理大模型为例: • 与第四代相比,训练性能

发表于 12-22 11:52 •377次阅读

CPU也可以完美运行大<b class='flag-5'>模型</b> 英特尔第五代至强重磅发布

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔 Extension for Transformer 创新

发表于 12-01 20:40 •632次阅读

用上这个工具包，大<b class='flag-5'>模型</b><b class='flag-5'>推理性</b>能加速达40倍

NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其最大的新一代大语言模型（LLM）。大语言模型

发表于 11-29 21:15 •318次阅读

NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

通过 Merlin 大幅提升大规模深度多目标精排模型训练性能本案例中，NVIDIA 团队与陌陌推荐系统团队深度合作，共同使用 NVIDIA

发表于 11-09 10:45 •138次阅读

中国计算机大会现场王海峰揭秘文心大模型4.0

王海峰表示，基于更强平台、更优数据、更好算法，我们训练出规模更大、效果更好的文心大模型4.0。通过飞桨与文心的协同优化，模型周均训练有效率超过98%，

发表于 10-29 11:35 •515次阅读

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Mode

发表于 10-27 20:05 •523次阅读

Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库，将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。正如对相同硬件

发表于 10-23 16:10 •322次阅读

最新MLPerf v3.1测试结果认证，Gaudi2在GPT-J模型上推理性能惊人

英特尔产品在全新MLCommons AI推理性能测试中尽显优势今日，MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf推理v3

发表于 09-12 17:54 •231次阅读

求助，为什么将不同的权重应用于模型会影响推理性能？

生成两个 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的类似模型，以不同的 fps （27fps 和 6fps）运行更多样化的权重是否会影响 Myriad X 上的推理性能？

发表于 08-15 07:00

如何提高YOLOv4模型的推理性能？

使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。将权重转换为 ONNX 文件，然后转换为中间表示（IR）。无法确定如何获得更好的推理性能。

发表于 08-15 06:58

NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

vivo AI 团队与 NVIDIA 团队合作，通过算子优化，提升 vivo 文本预训练大模型的训练速度。在实际应用中，

发表于 05-26 07:15 •444次阅读

NVIDIA GPU 助力三维家打造 3D 垂类大模型，引领家居设计变革

案例简介广东三维家信息科技有限公司（以下简称“三维家”），通过采用 NVIDIA GPU 和 NVIDIA 推理加速引擎 TensorRT，提升

发表于 05-17 05:55 •303次阅读