0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA GPU助力提升模型训练和推理性价比

GLeX_murata_eet 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-08-23 17:09 次阅读

无量推荐系统承载着腾讯PCG(平台与内容事业群)的推荐场景,包括: 腾讯看点(浏览器、QQ看点、商业化)、腾讯新闻、腾讯视频、腾讯音乐、阅文、应用宝、小鹅拼拼等。无量推荐系统支持日活跃用户达数亿级别,其中的模型数量达数千个,日均调用服务达到千亿级别。无量推荐系统,在模型训练和推理都能够进行海量Embedding和DNN模型的GPU计算,是目前业界领先的体系结构设计。

传统推荐系统面临挑战

传统推荐系统具有以下特点: 训练是基于参数服务器的框架,解决海量数据和稀疏特征的分布式训练问题。推理通常分离大规模Embedding和DNN,只能进行DNN的GPU加速。 所以,传统的推荐系统架构具有一些局限性:1. 大规模分布式架构有大量的额外开销,比如参数和梯度的网络收发。2. 随着DNN模型复杂性的的进一步提升,CPU的计算速度开始捉襟见肘。 随着业务的快速增长,日活用户增多,对其调用数量快速增加,给推荐系统后台带来了新的挑战:1. 模型更加复杂,计算量更大,但是参数服务器的分布式架构有效计算比很低。2. 海量Embedding因为规模庞大,查询和聚合计算难以有效利用GPU高性能显存和算力的优势。

GPU助力提升模型训练和推理性价比

基于以上的挑战,腾讯PCG(平台与内容事业群)选择使用基于NVIDIA A100 GPU的分布式系统架构来创建无量推荐系统。

1. 通过多级存储和Pipeline优化,在HPC上完成大规模推荐模型的GPU的高性能训练。2. 基于特征访问Power-law分布的特性,GPU缓存高频特征参数,同时从CPU中动态获取低频特征参数,实现了大规模推荐模型完整的GPU端到端模型推理。

腾讯PCG有多种类型的推荐业务场景。比如信息流推荐的QQ浏览器、QQ看点、新闻推荐的腾讯新闻、视频推荐的腾讯视频、微视、App推荐的应用宝、以及腾讯音乐的音乐推荐和阅文集团的文学推荐。

无量推荐系统承载了这些推荐业务场景的模型训练和推理服务。基于传统的推荐系统架构,无量推荐系统使用大量CPU资源,通过分布式架构可以扩展到TB级模型的训练和部署,取得了巨大的成功。随着业务的快速增长,日活用户增多,对其调用数量快速增加,传统架构局限性限制了推荐系统的架构扩展和性能提升。

通过使用GPU训练和推理,单机多卡的GPU算力可以达到数十台CPU机器的算力,节省了大量的额外分布式开销。通过充分利用A100 GPU高性能显存快速访问Embedding,以及并行算力处理DNN推理,单张A100 GPU可以在相同的延迟下推理10倍于CPU的打分样本。目前基于GPU的推荐架构可以提升模型训练和推理性价比1~3倍。

未来,无量推荐系统将不断优化推荐模型在GPU上的应用,利用HPC多机多卡,混合精度等能力,进一步提高推荐场景使用GPU的性价比。

重磅!NVIDIA行业微站一睹为快!内容涵盖NVIDIA主要的12大行业方案,以及NVIDIA当期重点产品资料

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4588

    浏览量

    101702

原文标题:NVIDIA A100 GPU助力腾讯PCG加速无量推荐系统

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 152次阅读

    自然语言处理应用LLM推理优化综述

    当前,业界在将传统优化技术引入 LLM 推理的同时,同时也在探索从大模型自回归解码特点出发,通过调整推理过程和引入新的模型结构来进一步提升
    发表于 04-10 11:48 80次阅读
    自然语言处理应用LLM<b class='flag-5'>推理</b>优化综述

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch TensorRT就是这两者的结合。
    的头像 发表于 01-09 16:41 386次阅读
    Torch TensorRT是一个优化PyTorch<b class='flag-5'>模型</b><b class='flag-5'>推理性</b>能的工具

    CPU也可以完美运行大模型 英特尔第五代至强重磅发布

    处理器,它来了! 若是用一句话来概括它的特点,那就是——AI味道越发得浓厚。 以训练推理模型为例: •           与第四代相比,训练性能
    的头像 发表于 12-22 11:52 377次阅读
    CPU也可以完美运行大<b class='flag-5'>模型</b> 英特尔第五代至强重磅发布

    用上这个工具包,大模型推理性能加速达40倍

    作者: 英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊 编者按: 只需不到9行代码, 就能在CPU上实现出色的LLM推理性能。 英特尔  Extension for Transformer 创新
    的头像 发表于 12-01 20:40 632次阅读
    用上这个工具包,大<b class='flag-5'>模型</b><b class='flag-5'>推理性</b>能加速达40倍

    NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

    本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其 最大的新一代大语言模型(LLM)。 大语言模型
    的头像 发表于 11-29 21:15 318次阅读
    <b class='flag-5'>NVIDIA</b> 为部分大型亚马逊 Titan 基础<b class='flag-5'>模型</b>提供<b class='flag-5'>训练</b>支持

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA
    的头像 发表于 11-09 10:45 138次阅读
    <b class='flag-5'>NVIDIA</b> Merlin <b class='flag-5'>助力</b>陌陌推荐业务实现高性能<b class='flag-5'>训练</b>优化

    中国计算机大会现场王海峰揭秘文心大模型4.0

    王海峰表示,基于更强平台、更优数据、更好算法,我们训练出规模更大、效果更好的文心大模型4.0。通过飞桨与文心的协同优化,模型周均训练有效率超过98%,
    的头像 发表于 10-29 11:35 515次阅读

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Mode
    的头像 发表于 10-27 20:05 523次阅读
    现已公开发布!欢迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-LLM 优化大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    Nvidia 通过开源库提升 LLM 推理性

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件
    的头像 发表于 10-23 16:10 322次阅读

    最新MLPerf v3.1测试结果认证,Gaudi2在GPT-J模型推理性能惊人

    英特尔产品在全新MLCommons AI推理性能测试中尽显优势 今日,MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf推理v3
    的头像 发表于 09-12 17:54 231次阅读
    最新MLPerf v3.1测试结果认证,Gaudi2在GPT-J<b class='flag-5'>模型</b>上<b class='flag-5'>推理性</b>能惊人

    求助,为什么将不同的权重应用于模型会影响推理性能?

    生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myriad X 上的推理性能?
    发表于 08-15 07:00

    如何提高YOLOv4模型推理性能?

    使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能。
    发表于 08-15 06:58

    NVIDIA AI 技术助力 vivo 文本预训练模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练模型训练速度。在实际应用中,
    的头像 发表于 05-26 07:15 444次阅读
    <b class='flag-5'>NVIDIA</b> AI 技术<b class='flag-5'>助力</b> vivo 文本预<b class='flag-5'>训练</b>大<b class='flag-5'>模型</b>性能<b class='flag-5'>提升</b>

    NVIDIA GPU 助力三维家打造 3D 垂类大模型,引领家居设计变革

    案例简介 广东三维家信息科技有限公司(以下简称“三维家”),通过采用 NVIDIA GPUNVIDIA 推理加速引擎 TensorRT,提升
    的头像 发表于 05-17 05:55 303次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>助力</b>三维家打造 3D 垂类大<b class='flag-5'>模型</b>,引领家居设计变革