0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

内部业务支撑&前瞻技术布局 One4All下一代生成式推荐系统

京东云 来源:京东零售 申磊 作者:京东零售 申磊 2025-03-19 11:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:京东零售 申磊

自LLM在自然语言处理等领域取得了瞩目成就之后,学术界积极探索生成式模型对搜广推系统的增强或改进方式[1],现有工作大体可以分为两类[2]:(1)用大模型做数据和知识增强、提取表征、通过prompt将推荐转成对话驱动的任务等,本质上没有修改LLM,属于信息增强和补充方法,无法直接建模海量协同信号。 (2)修改LLM直接建模搜广推海量数据中的协同信号,对输入输出范式改造,通过预训练/微调等过程建模海量数据,让模型同时拥有通用的世界知识和垂直领域海量协同信息。是能实现搜广推大模型scaling的前提,需要更复杂的工程架构支持。第一类工作层出不穷,第二类工作是搜广推值得探索的前沿方向之一。2024年至今,业界在第二类工作中也有一些相关进展和成果,例如,GR(Meta)[3]、HLLM(字节)[4]、NoteLLM(小红书)[5]、NoteLLM-2(小红书)[6]、OneRec(快手)[7]。

CPS算法组也在生成式推荐方向上进行了一系列工作,在探索前沿技术的同时提升业务效果。关于生成式推荐系统、CPS联盟广告、以及第一阶段的工作内容介绍可以参考我之前撰写的文章: 生成式推荐系统与京东联盟广告-综述与应用。下面,我将介绍在此文章发布之后的近期工作进展。本文进一步梳理了业务需求,并以此总结出核心技术点,针对CPS广告的特点,对前链路的用户意图和后链路的多目标进行感知和建模,从而进行推荐全链路优化。


二、业务需求&核心技术点

CPS广告推荐主要针对站外用户进行多场景推荐。业务需求包括精准感知用户意图、进行多目标优化以兼顾收益与用户活跃度,以及利用和兼容多种场景和任务数据。围绕这些需求,我聚焦于显式意图感知的可控商品推荐、推荐效果的多目标优化、One4All生成式推荐框架这三项核心技术,分别对应生成式模型的指令遵循微调阶段、偏好对齐阶段以及数据到模型的全流程范式。

wKgZO2faOxOADxG-AALNoGNPVXw503.png

CPS广告推荐业务需求与核心技术点的关系

wKgZPGfaOxWAGJBnAATmgFgYxLY077.png

CPS广告推荐的核心技术点与生成式推荐框架


三、显式意图感知的可控商品推荐

wKgZO2faOxaAULpZAAK8aL5Qh44936.png

显式意图感知的可控商品推荐示意图

背景介绍

现有方案汇总

落地页商品推荐是站外广告很重要的一种形式,对应的研究课题是触发诱导推荐(Trigger-Induced Recommendation, TIR),现有方案包含如下三类:

•基于历史行为序列隐式建模用户意图;

•利用触发项进行I2I召回或通过sku2query生成搜索词再进行商品检索;

•通过三个网络来分别表示触发项、建模用户历史行为和预估权重来融合前两者,例如,DIHN、DIAN、DEI2N和DUIN[8、9、10、11]。

wKgZPGfaOxiAcXc4ABNA1GIWkss407.png

一些触发诱导推荐方案


业务需求&现有方案局限性

wKgZO2faOxmAdwk7AAI99cJXZrQ167.png

显式意图感知的可控商品推荐业务需求与现有方案局限性


解决方案

(1) 通过传统推荐数据自动化地生成丰富的意图描述,以意图文本+历史商品语义ID序列作为输入,目标商品语义ID作为输出的方式 (2)重构触发诱导推荐的任务范式,利用 (3)生成式指令遵循微调的方式实现对历史行为和触发项的感知和动态调控。


自动化意图生成和评估

•输入“用户行为数据+目标商品”;

•基于Few-shot Prompting和CoT策略,通过言犀-81B模型对用户行为数据进行总结、推理,并预测当前意图;

•输出“总结-推理-预测”的三元组数据;

•利用Self-Verification的方式对生成的显性意图进行评估。

wKgZPGfaOxqAEfzRAAOG5HhsgnQ495.png


输入输出范式+指令遵循微调

•将数据组织成“Input: [Prompt]. Output: [Response]”的形式,在序列推荐的基础上增加三类任务,其输入输出数据定义如下:

wKgZO2faOxyAIfXEAAaLWjYZwZI105.png

显式意图感知的可控商品推荐任务定义及输入输出示例


方案效果

•离线效果:意图感知的可控模型在HitRate和NDCG指标上,相比非意图感知的模型可提升2~3倍,并且表现出较好的可控能力。

•线上效果:SKUCTR提升3%+,SKUCVR、同店订单和同店佣金也获得显著提升。

wKgZPGfaOx2AN_4IAATKkdf11pI913.png

样例展示1

wKgZO2faOx-AVqcNAAeQH-WTd7w038.png

样例展示2

四、推荐效果的多目标优化

wKgZPGfaOyCAS4QaAAKYbgozGEo126.png

推荐效果的多目标优化示意图


背景介绍

现有方案汇总

非LLM方法

•Shared Bottom、MMOE、PLE:通过共享和独立网络平衡多个任务[12、13];

•ESMM:通过全空间建模解决样本选择偏差问题[14]。

wKgZO2faOyKACROeAAi65H2bT5E610.png

一些多目标优化的非LLM方法

LLM方法

•MORLHF和MODPO:基于RLHF和DPO改进,对多个奖励函数的线性加权[15、16];

•Reward Soups:对多个LLM的权重进行插值[17]。

wKgZO2faOyOADgduAARTnIu-dok977.png

一些多目标优化的LLM方法


业务需求&现有方案局限性

wKgZPGfaOyWAcCXBAAJVy765PFk634.png

推荐效果的多目标优化业务需求与现有方案局限性


解决方案

整合行为和价格数据,提高点击到购买的转化率,并最终提升广告收益。


基于DPO的偏好对齐算法

•基于点击商品预测模型,对“购买”偏好进行建模f(点击->购买);

•以“点击且购买”商品作为正例,“点击未购买”商品作为负例,将数据组织成“Input: [Prompt]. Output1: [Response+]. Output2:[Response-]”的形式。

wKgZPGfaOyaARqf-AADLSO1mHMc062.png

•劣势:DPO[18、19]仅考虑了f(点击->购买),且是正负例间的相对关系,需要将数据组成三元组的形式,没有利用到奖励值。


基于RiC (Rewards-in-Context) 的偏好对齐算法

wKgZO2faOyiABtaLAAh-7Fg8D4A473.png

RiC框架图

•离线训练:把行为和收益相关的多种奖励融入数据进行监督微调,让模型学习不同奖励组合下的策略

◦数据形式:“Input: [Prompt]r1r2 ...rN”;

◦奖励设计:针对点击、购买、价格、佣金奖励进行设计,并归一化。

•在线训练:通过在帕累托前沿上的增强数据来改善数据稀疏问题

◦产生随机提示:在帕累托前沿附近分配奖励,即除一维度外均赋最大值;

◦离线SFT模型生成结果,奖励模型评分,多目标拒绝采样过滤样本。

•推理阶段:利用偏好到奖励的映射,自由适应多样化的用户偏好

•优势:(1) 仅通过监督微调就能实现LLM策略的对齐;(2) 同时利用正面和负面反馈,提升对奖励机制的理解;(3) 扩展性非常强,覆盖多种奖励组合下的多样化表现[20、21、22]。

wKgZPGfaOymAN7AaAAFM2IZ-S10995.png

RiC奖励设计方案

wKgZO2faOyuAR1LpAACQCqqYDrE186.png

偏好到奖励的映射函数

方案效果

•离线效果:HitRate@1在多个数据集上提升10%+;

•线上效果:SKUCTR提升1.5%+,SKUCVR提升7%+,同店订单和同店佣金也获得显著提升。


五、One4All生成式推荐框架

背景介绍

业务需求

•CPS广告推荐涉及多样的业务场景,需要强化系统的跨场景适应性;

•需要优化框架中的模型更新策略,提升系统实时性与灵活性。


解决方案

设计可扩展框架兼顾行为和语义的理解与生成,提升推荐系统的泛化能力;同时优化模型更新策略,确保系统能够灵活适用于不同任务和场景。


可扩展框架设计

wKgZPGfaOy-AKFU7AAYfdnjrxiw972.png

One4All生成式推荐框架示意图


线上模型更新策略

wKgZO2faOzCAK1BHAAHF1_vIoHU209.png

线上模型更新策略


wKgZPGfaOzKAeLObAAVJOChd2T4453.png

线上模型更新策略示意图


wKgZO2faOzSAJWMGAADCxurR-6g456.png

线上例行化更新信息

方案效果

•完成了线上例行化的开发,支撑CPS广告每天1000w+UV的在线实时推理;

•基于One4All生成式推荐框架,在现有序列推荐主任务的基础上兼容更多的行为和语言理解的任务,推动召排一体化、搜推联合建模、用户行为总结、个性化意图推断等技术的探索。


六、总结和未来展望

•交互式推荐系统(搜索推荐联合)

◦现有方案仍未更大限度激发生成式模型的效果和能力,交互式应用是值得尝试的方向,同时需要配合上下游进行产品形式的重构。

•多模态信息理解与生成

◦前链路中有丰富的图片和视频信息,对多模态信息进行高效地理解和内容组织,可以增强推荐效果和提升展示形式的丰富程度。

最后打个小广告:

欢迎对生成式推荐系统感兴趣的同学联系我(erp: shenlei20)一起交流讨论,也欢迎加入我们CPS算法组共同探索下一代交互式搜广推系统!


七、参考文献

1.Xu L, Zhang J, Li B, et al. Prompting large language models for recommender systems: A comprehensive framework and empirical analysis[J]. arXiv preprint arXiv:2401.04997, 2024.

2.知乎《一文梳理工业界大模型推荐实战经验》. 2024

3.Zhai J, Liao L, Liu X, et al. Actions speak louder than words: trillion-parameter sequential transducers for generative recommendations[C]//Proceedings of the 41st International Conference on Machine Learning. 2024: 58484-58509.

4.Chen J, Chi L, Peng B, et al. Hllm: Enhancing sequential recommendations via hierarchical large language models for item and user modeling[J]. arXiv preprint arXiv:2409.12740, 2024.

5.Zhang C, Wu S, Zhang H, et al. Notellm: A retrievable large language model for note recommendation[C]//Companion Proceedings of the ACM Web Conference 2024. 2024: 170-179.

6.Zhang C, Zhang H, Wu S, et al. NoteLLM-2: multimodal large representation models for recommendation[J]. arXiv preprint arXiv:2405.16789, 2024.

7.Deng J, Wang S, Cai K, et al. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment[J]. arXiv preprint arXiv:2502.18965, 2025.

8.Ma J, Xiao Z, Yang L, et al. Modeling User Intent Beyond Trigger: Incorporating Uncertainty for Trigger-Induced Recommendation[C]//Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 2024: 4743-4751.

9.Shen Q, Wen H, Tao W, et al. Deep interest highlight network for click-through rate prediction in trigger-induced recommendation[C]//Proceedings of the ACM web conference 2022. 2022: 422-430.

10.Xia Y, Cao Y, Hu S, et al. Deep intention-aware network for click-through rate prediction[C]//Companion Proceedings of the ACM Web Conference 2023. 2023: 533-537.

11.Xiao Z, Yang L, Zhang T, et al. Deep evolutional instant interest network for ctr prediction in trigger-induced recommendation[C]//Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024: 846-854.

12.Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1930-1939.

13.Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Proceedings of the 14th ACM conference on recommender systems. 2020: 269-278.

14.Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 1137-1140.

15.Zhou Z, Liu J, Shao J, et al. Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 10586-10613.

16.Li K, Zhang T, Wang R. Deep reinforcement learning for multi-objective optimization[J]. IEEE transactions on cybernetics, 2020, 51(6): 3103-3114.

17.Rame A, Couairon G, Dancette C, et al. Rewarded soups: towards pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards[J]. Advances in Neural Information Processing Systems, 2023, 36: 71095-71134.

18.Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[J]. Advances in Neural Information Processing Systems, 2023, 36: 53728-53741.

19.Wu J, Xie Y, Yang Z, et al. beta-DPO: Direct Preference Optimization with Dynamic beta[J]. Advances in Neural Information Processing Systems, 2025, 37: 129944-129966.

20.Lin X, Chen H, Pei C, et al. A pareto-efficient algorithm for multiple objective optimization in e-commerce recommendation[C]//Proceedings of the 13th ACM Conference on recommender systems. 2019: 20-28.

21.Hu J, Tao L, Yang J, et al. Aligning language models with offline learning from human feedback[J]. arXiv preprint arXiv:2308.12050, 2023.

22.Yang R, Pan X, Luo F, et al. Rewards-in-context: multi-objective alignment of foundation models with dynamic preference adjustment[C]//Proceedings of the 41st International Conference on Machine Learning. 2024: 56276-56297.

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296676
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4969
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1257
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    下一代广电综合业务网上营业厅的特点与功能

    政策的出台,面向下一代广播电视网(NGB)的业务及其运营成为各广电运营商的核心工作内容,广电运营商提供的业务类型开始增多,从“单一业务”向“多业务
    发表于 04-23 11:33

    下一代定位与导航系统

    下一代定位与导航系统
    发表于 08-18 10:37

    2016CES:Atmel下一代触摸传感技术亮相

     2016年1月7日——全球微控制器(MCU)及触控技术解决方案领域的领导者Atmel公司今日宣布,将把下一代压力传感技术应用于最新面向智能手机应用的maXTouchU系列。Atmel的压力传感
    发表于 01-13 15:39

    下一代自动测试系统体系结构

    本帖最后由 sinap_zhj 于 2016-4-16 14:52 编辑 下一代自动测试系统体系结构首先是信息共享和交互的结构,能够满足测试系统
    发表于 04-16 14:47

    如何利用新型Linux开发工具应对下一代嵌入系统设计挑战?

    增添工程能力。这两种模式都已被证明是成功的,但是每种做法都需各自的成本。那么我们该如何利用新型Linux开发工具应对下一代嵌入系统设计挑战呢?
    发表于 07-30 06:05

    下一代SONET SDH设备

    下一代SONET/SDH设备
    发表于 09-05 07:05

    单片光学实现下一代设计

    单片光学 - 实现下一代设计
    发表于 09-20 10:40

    下一代测试系统:用LXI拓展视野

    下一代测试系统:用LXI拓展视野
    发表于 09-26 14:24

    下一代测试系统:用LXI推进愿景

    下一代测试系统:用LXI推进愿景(AN 1465-16)
    发表于 10-09 09:47

    请问Ultrascale FPGA中单片和下一代堆叠硅互连技术是什么意思?

    大家好, 在Ultrascale FPGA中,使用单片和下一代堆叠硅互连(SSI)技术编写。 “单片和下一代堆叠硅互连(SSI)技术”是什么意思?谢谢娜文G K.
    发表于 04-27 09:29

    下一代超快I-V测试系统关键的技术挑战有哪些?

    如何进行超快I-V测量?下一代超快I-V测试系统关键的技术挑战有哪些?
    发表于 04-15 06:33

    用Java开发下一代嵌入产品

    ,进行了优化,还有简洁的开发文档。如果你是名Java程序员,并且准备好和我同加入机器间技术的潮流,或者说开发下一代改变世界的设备,那么就让我们开始学习物联网(IoT)把。在你开始嵌
    发表于 11-05 09:12

    面向下一代网络的开放API技术研究

    开放API技术是在多网络融合、多协议的下一代网络中构筑开放的业务开发和运营环境的基础。首先,从现有网络的业务开发运营环境的缺陷出发,介绍了
    发表于 03-30 20:57 16次下载

    以视频业务为核心的下一代网络

    内容提要 1、当前对下一代网络的若干定义 2、国际上几个重要的试验计划 4、三个极具争议的观点 5、个有意义的规模试验 6、结束语 3、业务是驱动网络演进的核心动力
    发表于 03-31 20:04 16次下载

    罗德与施瓦茨新一代示波器R&S MXO业界最快的波形捕获率

    罗德与施瓦茨推出的全新R&S MXO 4系是下一代示波器的首个系列。R&S MXO 4示波器具备四通道,提供200 MHz、
    发表于 09-29 11:25 1560次阅读