0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA大语言模型在推荐系统中的应用实践

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-03-05 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

生成式推荐系统优势

推荐系统的主要任务在于根据用户的过往行为预测其潜在兴趣点,并据此推荐相应的商品。在传统的推荐系统中,当处理用户请求时,会触发多个召回模块,例如热门商品召回、个性化召回以及深度召回等,从而召回大量候选商品。之后,系统会借助相对简单的粗排模型对这些候选集进行初步筛选,以缩小候选范围,最后通过精排和重排模型,确定最终返回给用户的推荐结果。

随着大语言模型 (LLM) 在推荐系统中的广泛应用,生成式推荐系统相较于传统推荐系统可展现出以下显著优势:

推荐流程的简化:生成式推荐系统从多级过滤的判别式 (discriminative-based) 架构转变成单级过滤的生成式 (generative-based) 架构。通过直接生成推荐结果,大幅简化了推荐流程,显著降低了系统复杂性。

知识融合:LLM 具备更强的泛化能力和稳定性。借助其丰富的世界知识和推理能力,生成式推荐系统可以突破传统电商平台在商品和用户建模时面临的数据局限。在新用户、新商品的冷启动以及新领域的推荐场景中,生成式推荐系统可以提供更优质的推荐效果和更出色的迁移性能。

规模定律(Scaling Law):传统的点击率 (CTR) 稀疏模型在模型规模扩大时,往往会面临边际收益递减的问题。而 LLM 所表现出的规模定律属性,为模型的有效扩展提供了一种新路径,即模型性能随着规模的增加而持续提升。这意味着通过扩大模型规模,可以获得更优的推荐效果,从而突破传统模型的性能瓶颈。

以下是基于京东广告场景落地的生成式召回应用,介绍大语言模型在推荐系统中的实践。

生成式召回方案介绍

1. 生成式召回算法与实现步骤

生成式推荐包含两个接地 (grounding) 过程:一是将商品与自然语言连接起来。二是将用户行为与目标商品连接起来。具体实现步骤如下:

商品表示:直接生成文档或商品描述在实际中几乎是不可行的。因此采用短文本序列(即语义 ID)来表征商品。选取高点击商品的标题、类目等语义信息,经由编码器模型获得向量表示,再利用 RQ-VAE 对向量进行残差量化,最终得到商品的语义 ID。例如,商品:“XXX 品牌 14+ 2024 14.5 英寸轻薄本 AI 全能本高性能独显商务办公笔记本电脑”可表示为:

用户画像与行为建模:通过构建提示词来定义任务,并将用户画像、用户历史行为数据等用户相关信息转化为文本序列。例如:“用户按时间顺序点击过这些商品:,,

你预测用户下一个可能点击的商品是?”。

模型训练:确定生成模型的输入(用户表示)和输出(商品物料标识符)后,即可基于生成式 Next Token Prediction 任务进行模型训练。

模型推理:经过训练后,生成模型能够接收用户信息并预测相应的商品语义 ID,这些语义标识可以对应数据集中的实际商品 ID。

2. LLM 模型部署的工程适配

传统基于深度学习的召回模型,参数量通常在几十万到几千万之间,且模型结构以 Embedding 层为主。而基于 LLM 实现的生成式召回模型,参数规模大幅提升至 0.5B 至 7B 之间,模型结构主要由 Dense 网络构成。由于参数量显著增加,LLM 在推理过程中所需的计算资源相比于传统模型大幅提升,通常高出几十倍甚至上百倍。因此,LLM 在处理复杂任务时具备更强的表现力,但同时也对计算能力有着更高的要求。

为了将如此庞大的算力模型部署至线上环境,并确保其满足毫秒级实时响应的需求,同时在严格控制资源成本的前提下实现工业化应用,我们必须对在线推理架构进行极致的性能优化。

4846fbf8-f82e-11ef-9310-92fbcf53809c.png

图 1: 在线推理架构

该图片来源于京东,若您有任何疑问或需要使用该图片,请联系京东

3. 基于 TensorRT-LLM 的 LLM构建优化及系统部署

在建模封装层,通过TensorRT-LLM实现 LLM 模型的构建与优化,并将其无缝整合到现有生态系统中,利用 PythonTensorFlow API 构建端到端推理图。基于 TensorFlow 原生算子及现有业务的自定义 TensorFlow 算子库(例如用户行为特征处理算子),实现算法的灵活建模。

在推理优化层,通过应用 Inflight Batching、Constrained Sampling、Flash Attention 及 Paged Attention 等加速方案,最大化提升单卡吞吐量并降低推理延迟。

在系统部署方面,为了最大程度利用时间资源,生成式召回一期的部署采用了与传统多分支召回模块并行的方式。由于简化了推理流程,相较于传统召回方式,生成式召回的资源消耗更少,运行时间更短,并且召回效果更优。

48671136-f82e-11ef-9310-92fbcf53809c.png

图 2:生成式召回与传统多路召回并行

该图片来源于京东,若您有任何疑问或需要使用该图片,请联系京东

4. 生成式召回一期

在推荐广告及搜索广告的成功应用

目前,生成式召回一期已在京东推荐广告及搜索广告等主要业务线成功实施。在推荐广告方面,基于生成式模型的参数规模及语义理解优势,AB 实验结果显示商品点击率与消费得到了显著提升。在搜索广告方面,LLM 所具备的语义理解能力显著提升了对查询与商品的认知能力,尤其是在处理搜索中的长尾查询时,填充率有明显提升,AB 实验也取得了点击率与消费几个百分点的收益增长。

通过 TensorRT-LLM 进行推理优化加速:

降低延迟并提升吞吐

在原先的模型推理方案中,线上业务的低延迟要求往往较难达成。然而,在切换到 TensorRT-LLM 之后,借助其丰富的优化特性,不仅模型推理延迟达到线上业务要求,同时吞吐也有了显著提升。

在 NVIDIA GPU 上进行的测试显示,与基线对比,在限制 100 毫秒推理耗时的广告场景下,采用 TensorRT-LLM 进行推理的吞吐量提升了五倍以上。这相当于将部署成本降至原来的五分之一。

4872d534-f82e-11ef-9310-92fbcf53809c.png

图 3:TensorRT-LLM 和基线的对比 (Qwen2-1.5B | beam 5 | vocab size 15W | input 150 | output 4) ,数据来自京东广告团队测试结果

该图片来源于京东,若您有任何疑问或需要使用该图片,请联系京东

针对这个特定的应用场景,合理配置 beam width 对检索结果有着重要影响。一般来说,较高的 beam width 能够增加候选商品的数量,从而提高检索的准确性。例如,在需要返回 300 个商品时,若 beam width 设置较低,每个 code 就需要对应更多的商品 id,这无疑会导致检索的精度降低。

为了解决这个问题,NVIDIA DevTech 技术团队进行了有针对性的二次开发和优化工作,从而让 TensorRT-LLM 支持更大范围的 beam width,及时满足了线上的业务需求。

持续优化技术以实现模型效率效果提升

未来,我们将持续在生成式推荐领域深入探索,重点聚焦以下几个方向:

提升模型规模以满足实时推理需求

目前,由于算力、时间消耗和成本等客观条件的限制,生成式推荐系统在实时推理中的可部署模型规模相对较小(约 0.5B 至 6B 参数之间)。然而,离线实验的数据表明,扩大模型规模可以显著提升线上推荐效果。这意味着对在线性能优化提出了更高要求。为了支持更大规模的模型在线部署,同时不显著增加成本,我们需要进一步优化模型结构和推理效率。例如,采用模型剪枝、量化等模型压缩技术,优化采样检索算法效率,以及高效的分布式推理架构。

扩展用户行为输入以提升模型效果

实验表明,输入更长的用户历史行为序列能够显著提高模型的推荐效果,但同时也会增加计算资源消耗和推理时间。因此,我们需要在效果提升和性能开销之间找到平衡。优化方案包括:

a. Token 序列压缩:对输入序列进行压缩(例如去除冗余信息、合并相似行为等),减少序列长度,同时保留关键信息。

b. 用户行为 KV 缓存复用:在推理过程中,针对用户行为特征有序递增的特点,对长期行为进行离线计算并进行缓存,在线部分负责计算实时行为,从而避免重复计算,最大化利用算力,提高推理效率。

融合稀疏与稠密模型以实现联合推理

随着模型参数量的增加,我们可以将稀疏的传统 CTR 模型与稠密的 LLM 模型进行联合推理。稀疏模型擅长处理高维度的稀疏特征,计算效率高;而稠密模型可以捕获复杂的非线性特征和深层次的语义信息。通过对两者的优势进行融合,构建一个既高效又精确的推荐系统。

针对于稀疏训练场景, NVIDIA 可以提供DynamicEmb方案。DynamicEmb 是一个 Python 包,专门针对推荐系统提供稀疏训练方案,包括模型并行的 dynamic embedding 表和 embedding lookup 功能。

DynamicEmb 利用 HierarchicalKV 哈希表后端,将键值(特征-嵌入)对存储在 GPU 的高带宽内存 (HBM) 以及主机内存中,而 embedding lookup 部分则主要利用了 EMBark 论文中的部分算法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109085
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710
  • 推荐系统
    +关注

    关注

    1

    文章

    44

    浏览量

    10403
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1257

原文标题:NVIDIA TensorRT-LLM 在推荐广告及搜索广告的生成式召回的加速实践

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    名单公布!【书籍评测活动NO.31】大语言模型:原理与工程实践

    的能力将对千行百业产生深远影响,尤其优化业务流程和重塑组织结构方面。 然而,研究和实践过程,我们遇到了一个主要挑战:市场上缺乏大语言
    发表于 03-18 15:49

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践

    处理预训练架构Transformer,以及这些技术现实世界的如何应用。通过具体案例的分析,作者展示了大语言模型
    发表于 04-30 15:35

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    。这一过程的不断迭代使大语言模型语言理解和生成能力逐步提升。大语言模型自然
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】大语言模型的基础技术

    的,与上下文语境无关,因此不适用于一词多义的情况。例如,“苹果”“我去吃个苹果”与“这个苹果手机好用吗”这两个句子的语义明显不同,但静态词向量语言模型仅利用同一个向量表示词的语义,
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    《大语言模型“原理与工程实践”》是关于大语言模型内在机理和应用实践的一次深入探索。作者不仅深入讨
    发表于 05-07 10:30

    【大语言模型:原理与工程实践】大语言模型的预训练

    和多样性。高质量数据能确保模型稳定收敛,而数据的多样性则有助于模型学习广泛的通用能力,如文本生成、信息抽取、问答和编程等。此外,数据的多样性对于确保模型实际应用
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的评测

    和安全性。行业模型的评测则针对特定领域的能力,整体能力的评测则从宏观角度评估模型的通用性。基座模型的评测,除了自回归损失和困惑度等指标外
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的应用

    类任务上表现出色,甚至零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务,类似于人类的系统2,如数字推理等。然而,随着参数量的增加,大语言模型在这类任务上并未出现质的飞
    发表于 05-07 17:21

    语言模型:原理与工程实践+初识2

    前言 深度学习是机器学习的分支,而大语言模型是深度学习的分支。机器学习的核心是让计算机系统通过对数据的学习提高性能,深度学习则是通过创建人工神经网络处理数据。近年人工神经网络高速发展,引发深度学习
    发表于 05-13 00:09

    Ubuntu上使用Nvidia GPU训练模型

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:解决方案自动风扇控制
    发表于 01-03 08:24

    NVIDIA SWI UNETR模型医疗的应用

    NVIDIA 的 SWI UNETR 模型 NVIDIA DGX-1 团簇上使用八个 GPU 进行训练,初始学习率为 0 。 0008 ,并使用 AdamW 优化算法。
    的头像 发表于 04-06 16:07 4416次阅读
    <b class='flag-5'>NVIDIA</b> SWI UNETR<b class='flag-5'>模型</b><b class='flag-5'>在</b>医疗<b class='flag-5'>中</b>的应用

    NVIDIA NeMo最新语言模型服务帮助开发者定制大规模语言模型

    NVIDIA NeMo 大型语言模型(LLM)服务帮助开发者定制大规模语言模型NVIDIA B
    发表于 09-22 10:42 1182次阅读

    KT利用NVIDIA AI平台训练大型语言模型

    韩国先进的移动运营商构建包含数百亿个参数的大型语言模型,并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型
    的头像 发表于 09-27 09:24 1919次阅读

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    能。该开源程序库现已作为 NVIDIA NeMo 框架的一部分, /NVIDIA/TensorRT-LLM GitHub 资源库免费提供。 大
    的头像 发表于 10-27 20:05 1814次阅读
    现已公开发布!欢迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-LLM 优化大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 1488次阅读