0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

突破传统限制:OxygenREC--一个基于指令跟随的“快慢思考”电商生成式推荐框架

京东云 来源:jf_75140285 2026-02-25 17:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在电商推荐系统中,推荐模型长期面临着两个核心矛盾:一方面,传统的多阶段级联推荐系统存在目标不一致和误差累积的问题;另一方面,直接引入大型语言模型LLM虽然能带来强大的推理能力,但其高昂的延迟和计算成本在工业级应用中难以承受。更重要的是,现有的生成式推荐方法在多场景扩展性上面临巨大瓶颈--每个场景都需要独立训练和部署,导致资源利用率低下、维护成本高昂。

京东零售OxygenREC团队在论文《OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation》中提出了一种全新的解决方案:OxygenREC。这是一个基于“快慢思考”的指令跟随生成式推荐框架,不仅解决了推理能力与延迟之间的矛盾,更实现了“一次训练,多处部署”的多场景统一高效解决方案。

wKgZPGmMR4mAB7BwAAWR3l3Hd3M009.png

一、 关键挑战

OxygenREC 旨在解决当前推荐系统,特别是生成式推荐范式下的三大核心难题:

1.有限的演绎推理能力:现有的生成式推荐方法主要从用户海量行为中进行归纳学习,但在需要结合现实世界知识进行深度演绎推理的场景下表现不佳。比如下边两个例子:

1.当推荐的时空背景和用户画像是“成都冬至时的年轻宝妈”时,传统模型可能只是推荐“冬季外套”这样的商品,而无法深度推理出此时成都是“冷湿环境”,这位年轻母亲潜在的需求可能是“婴儿排汗睡衣”。

2.有个户外运动vlogger在购物行为中反复对比华为Mate 70和iPhone 16 Pro两款手机,传统系统因为用户频繁的交互历史,只会不断加强重复推荐这两款商品进行比价,而无法推理出其真正诉求可能是“高质量的移动影像”,从而模型未能精准推荐‘华为Pura’系列这一真正符合用户诉求的目标商品。

2.多场景适应与资源效率的矛盾:大部分推荐平台拥有首页、频道流、购物车、搜索等多种推荐场景。现有生成式推荐模型如果为每个场景训练独立模型,会带来巨大的运营和计算成本,而使用简单的统一模型又会面临“负迁移”问题--不同场景间的知识相互干扰,导致性能下降。

3.工业级部署的工程挑战:将LLM的深度推理能力与推荐系统的大规模稀疏特征、严格延迟要求相结合,是一个巨大的系统工程挑战。它需要同时处理推荐系统典型的TB级稀疏嵌入和LLM典型的十亿级稠密参数,这对训练框架和推理引擎都提出了极高要求。

二、 核心贡献

面对这些挑战,京东零售OxygenREC团队提出了一个基于指令跟随的生成式推荐框架-OxygenREC,首次把LLM中的“快慢思考”模式引入到生成式推荐中来。在OxygenREC框架中,通过基于Transformer 的Encoder-Decoder 作为骨干网络,能够根据特定指令生成语义化物品序列,来执行推荐场景的”快思考"方式。在“慢思考”模式中,引入上下文推理指令--由近线LLM pipeline 生成,将用户行为与上下文合成为可解释的指令。同时多场景对齐中,通过场景指令与基于强化学习的对齐机制,实现“一次训练,多场景部署”。

wKgZO2mMR42AEgLKACGKDKuJGsg564.png

1. “快慢思考”架构:知识注入与低延迟的平衡

这是整个OxygenREC的基础,其核心思想是将复杂的推理过程“离线化”,保证在线服务的低延迟

慢思考:一个近线的LLM pipeline,综合分析用户的时空上下文、个性化特征和历史行为,生成高质量的“上下文推理指令”。这个过程融合了世界知识,能进行深度演绎推理,但因其是近线批量处理,不增加在线请求的延迟。

快思考:一个高效的编码器-解码器骨干网络。它接收“慢思考”生成的指令,结合实时用户信号,在严格的延迟限制下生成推荐序列。该骨干网络本身轻量、高效,专为实时推理优化。

wKgZPGmMR4-ASTzBABCAeeEBpSA146.png



2. 语义对齐的指令控制机制:让指令真正发挥作用

仅仅生成指令是不够的,还必须确保模型能够准确理解并遵循指令。OxygenREC通过两项关键技术实现精准指令控制:

查询到物品的对齐损失:在训练阶段,通过一个辅助的Query-to-Item (Q2I) 损失函数,将指令嵌入与目标物品嵌入在同一个语义空间中对齐。这使得指令能够“理解”物品,并用于检索:

wKgZO2mMR5CAGScxAAEmNUIknNg815.png

指令引导检索(IGR):在生成推荐时,利用对齐后的指令作为查询,从用户长期历史行为中检索出最相关的部分,过滤掉无关的噪声。这确保了模型生成时专注在与当前指令意图最相关的历史信息上,大大提升了可控性和准确性。



3. 基于指令与强化学习的多场景统一对齐:Train-Once-Deploy-Everywhere

这是解决多场景扩展性的关键。OxygenREC摒弃了为每个场景独立建模的思路。

场景指令化:将不同的场景信息(如首页、购物车)和可选的触发物品(如用户点击的入口商品)统一编码为“场景指令”,作为模型的条件输入。

wKgZPGmMR5GACj4vAAZNq3_Uy1A740.png

统一奖励映射与策略优化:设计了一个统一的奖励映射服务,将不同场景、不同业务目标(如GMV,转化率,合法性,多样性)的奖励信号归一化。在此基础上,提出了Soft Adaptive Group Clip Policy Optimization (SA-GCPO) 算法进行强化学习训练:

wKgZO2mMR5KAQqwhAAMTTm5ygz4130.png

•该算法用自适应门控函数替代传统基于GRPO的硬截断方式(hard clip):

wKgZPGmMR5OAWZM6AAD6PgN2kCM877.png

•并以基于用户真实反馈的奖励分数作为阈值区分正负advantage样本,显著提升了多任务、多场景下策略学习的稳定性和效率:

wKgZO2mMR5SAQOD9AAGXCZklKoA688.png



4. 大规模生产级系统实现

为了支撑以上创新,团队构建了完整的工程体系:

•统一训练框架:基于PyTorch,深度融合了工业级稀疏嵌入引擎和LLM稠密训练引擎,在128张H800 GPU集群上实现了40%的模型FLOPs利用率。

高性能推理引擎xLLM:针对生成式推荐长上下文、大候选集的特点,定制开发了xLLM推理框架,通过xSchedule(系统调度)、xAttention(算子优化)、xBeam(束搜索优化)三级优化,满足线上严格的服务级别目标。

近线指令服务:推理指令通过近线服务批量生成并存入KV数据库,线上推荐模型直接读取,实现了零在线LLM调用,兼顾了语义丰富性和低延迟。



三、 实验成果

OxygenREC在京东几个核心场景的大量离线实验和在线A/B测试中取得了显著效果,证明OxygenREC 基于生成式推荐的方法在大规模工业级推荐系统中的有效性。

1. 基于快慢思考的生成式框架有效性验证

语义ID:通过多源对比学习(文本、图像、行为关联)构建的层次化语义ID,在保持高类别纯度(92.8%)的同时,实现了极低的ID碰撞,证明了其强大的表达和区分能力。

指令跟随:消融实验证明,在BOS右侧插入指令的方式为最佳;融合了场景ID和触发物品ID的指令效果显著优于单一组件;IGR和Q2I对齐机制共同作用带来了显著的性能提升。

wKgZPGmMR5WAXio9AAaOgjhz0L4219.png

统一模型 vs. 独立模型:在六个核心场景的对比中,统一的OxygenREC模型全面超越了为每个场景独立微调的基线模型,验证了OxygenREC框架在场景间正向迁移的有效性。

wKgZO2mMR5aAcFiQAAI--1ZKxkk320.png

2. 基于SA-GCPO后训练的有效性验证

在后续训练阶段,提出的SA-GCPO算法在合成数据比例变化时表现更稳定,且性能显著优于传统的GRPO及其变体GSPO。例如,在33%合成数据比例下,SA-GCPO在HR@1和HR@10上有显著提升。

wKgZPGmMR5eAGdq1AAGtZxXpUlY053.png

3. 电商场景在线A/B测试的商业效果

OxygenREC已在京东App上形成覆盖用户购物全链路的部署闭环:首页导流(场景1、2)-> 频道浏览(场景3、4)-> 商品结算转化(场景5、6)。在线测试结果表明,该模型在所有关键业务指标上均带来显著提升:

首页场景:GMV提升4.52%-8.40%。

频道流场景:其中一个场景的订单量提升了8.03%,显示出模型精准匹配购买意图的能力。

结算路径场景:在用户强购买意图下,GMV提升高达11.80%。

wKgZO2mMR5iAcUjiAAPM_Nx4Jiw296.png

与行业上其他生成式推荐方式对比:

wKgZPGmMR5mASXJ8AATJvbCa_iM845.png

OxygenREC 在几个关键维度上进行了生成式推荐的范式革新:

•架构上,用“快慢思考”破解了推理与延迟的死结。

•效率上,用“统一指令模型”破解了多场景训练的困局。

•控制上,用“语义对齐与引导检索”构建了生成式推荐模型的指令跟随能力。

•优化上,用“SA-GCPO”和全栈系统优化,确保了技术在工业巨量流量下的可行性、稳定性和卓越性能。



总结与展望

OxygenREC的成功,标志着生成式推荐在工业落地上迈出了关键一步。它通过“快慢思考”巧妙平衡了深度推理与低延迟,通过“指令跟随”实现了对推荐过程的精准可控,并通过统一的奖励与策略学习破解了多场景扩展的难题,真正实现了“一次训练,多场景部署”的pipeline。

未来,京东零售OxygenREC团队计划从两个方向继续探索:

•一是向基于语言扩散模型的非自回归生成范式演进,从根本上突破序列生成延迟与列表长度的线性关系,满足更高吞吐需求;

•二是开展跨场景用户轨迹建模,从用户在首页、搜索、购物车、结算等多场景的连贯行为中挖掘更深层的用户意图,实现更长周期的价值推荐。

OxygenREC不仅是一个高效的推荐系统,更为工业级生成式AI应用的大模型设计提供了宝贵范式--如何将大模型的“脑”与小模型的“身手”结合,如何在复杂多目标任务中实现稳定高效的学习,这其中的思想值得广泛借鉴。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 京东
    +关注

    关注

    2

    文章

    1128

    浏览量

    50140
  • 电商
    +关注

    关注

    1

    文章

    475

    浏览量

    29945
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于CW32L083的AT指令框架的创建

    ,\"AT+SETRTC=\",at_cmd_setrtc}, {AT_END,NULL,NULL} }; 再次我定义了执行指令的函数 1是AT测试,再有条是设置RTC的指令
    发表于 01-06 06:17

    生成人工智能会让自动驾驶更灵活吗?

    (Generative Artificial Intelligence,GAI)。生成人工智能不仅能实现传统AI的“识别”及“判断”的功能,更能达成“创造”的需求,它能从已有的数据中学习规律,并
    的头像 发表于 12-23 10:05 627次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b>人工智能会让自动驾驶更灵活吗?

    大模型中常提的快慢思考会对自动驾驶产生什么影响?

    提出的“快慢系统”理论启发,旨在让自动驾驶系统模拟人类的思考与决策过程。理想汽车结合端到端与VLM模型,推出了业界首个在车端部署的双系统方案,并成功将VLM视觉语言模型部署于车端芯片上。这套“系统1”与“系统2”相互配合的拟人化
    的头像 发表于 11-22 10:59 2621次阅读
    大模型中常提的<b class='flag-5'>快慢</b><b class='flag-5'>思考</b>会对自动驾驶产生什么影响?

    单基站360度UWB智能跟随解决方案,打破角度限制,360°全向检测,无盲区!

    1.方案概述本方案由深圳市稳传测控技术有限公司提供,基于先进的单基站360°UWB定位技术,彻底解决了传统跟随方案存在的识别盲区与队形限制两大痛点,实现全向、并排、高精度的智能跟随,适
    的头像 发表于 10-28 14:49 691次阅读
    单基站360度UWB智能<b class='flag-5'>跟随</b>解决方案,打破角度<b class='flag-5'>限制</b>,360°全向检测,无盲区!

    打破角度限制,稳传测控全新推出单基站360°UWB跟随方案(MK8000芯片) 智能出行 智慧物流新突破

    )无法并排跟随——旦目标在侧面,跟随容易失效。如今我们正式推出单基站360°UWB超宽带跟随方案,彻底突破了这些
    的头像 发表于 10-28 14:12 1234次阅读
    打破角度<b class='flag-5'>限制</b>,稳传测控全新推出单基站360°UWB<b class='flag-5'>跟随</b>方案(MK8000芯片) 智能出行 智慧物流新<b class='flag-5'>突破</b>

    突破传统桎梏,PPEC Workbench 开启电源智能化设计新路径

    匹配。 PPEC Workbench 电力电子智能化设计平台凭借图形化算法编程、智能化设计、高效协同等核心理念,突破传统电源设计的限制,为行业开辟了智能化、高效化的全新设计路径。它不仅为电力电子行业的发展注入了新动力,更让我们
    发表于 08-26 11:40

    智能体化AI和生成AI的区别

    生成 AI 的核心是“生成内容” —— 比如用大模型写报告,是对输入指令的被动响应。而智能体化 AI(Agentic AI)的关键是 “自主决策”:它像
    的头像 发表于 08-25 17:24 1861次阅读

    生成 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 5361次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的<b class='flag-5'>突破</b>与实践

    磁编技术赋能工业控制系统:突破传统传感限制

    的应用中暴露出了些局限性,而磁编技术的出现,如同场及时雨,为工业控制系统带来了新的生机与活力,成功突破传统传感的诸多限制
    的头像 发表于 07-29 16:28 755次阅读

    根据标题利用API实现多平台同步:省时省力生成文章

    结合内容生成工具,还能自动创建吸引人的产品文章。本文将步步解析如何实现这过程,帮助您节省时间和精力。 1. 多平台同步的挑战与API
    的头像 发表于 07-18 10:02 752次阅读
    根据标题利用API实现<b class='flag-5'>电</b><b class='flag-5'>商</b>多平台同步:省时省力<b class='flag-5'>生成</b>文章

    API速率限制的应对策略

    ​  现如今,电子商务平台竞争激烈,高效处理订单成为企业成败的关键。许多巨头背后都隐藏着“秘密武器”——API(Application Programming Interfac
    的头像 发表于 07-17 14:43 556次阅读
    <b class='flag-5'>电</b><b class='flag-5'>商</b>API速率<b class='flag-5'>限制</b>的应对策略

    API如何赋能营销:自动化促销活动生成

    促销活动生成,赋能营销,提升业务敏捷性和转化率。 什么是API? API(Application Programming Interface)是组预定义的规则和协议,允许不同软件
    的头像 发表于 07-16 10:44 478次阅读
    API如何赋能<b class='flag-5'>电</b><b class='flag-5'>商</b>营销:自动化促销活动<b class='flag-5'>生成</b>

    API入门问答:开发者必知的10基础问题

    至关重要,能帮助避免常见错误,提升开发效率。本文将围绕10基础问题展开,提供清晰解答和实用示例,助你快速上手。 1. 什么是API?
    的头像 发表于 07-14 14:54 793次阅读
    <b class='flag-5'>电</b><b class='flag-5'>商</b>API入门问答:开发者必知的10<b class='flag-5'>个</b>基础问题

    抖音 API 接口和传统接口,直播数据处理谁更快?

    开发者理解谁在直播数据处理中更胜筹。 1. 直播数据处理的核心挑战 直播涉及实时数据流,如用户互动、订单生成和库存更新。处理速度取决于API的响应时间、吞吐量和延迟。响应时间公式
    的头像 发表于 07-09 15:39 826次阅读
    抖音<b class='flag-5'>电</b><b class='flag-5'>商</b> API 接口和<b class='flag-5'>传统</b><b class='flag-5'>电</b><b class='flag-5'>商</b>接口,直播数据处理谁更快?

    PCIe EtherCAT实时运动控制卡PCIE464同步跟随/皮带跟随加工应用

    MOVESYNC指令实现同步/皮带跟随应用
    的头像 发表于 06-04 11:17 1408次阅读
    PCIe EtherCAT实时运动控制卡PCIE464同步<b class='flag-5'>跟随</b>/皮带<b class='flag-5'>跟随</b>加工应用