0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大促高并发系统性能优化实战--京东联盟广告推荐系统

京东云 来源:jf_75140285 作者:jf_75140285 2024-08-14 10:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当一个推荐系统面临高频、瞬时、大幅的流量突变时,如何在维持稳定性的同时,最小化推荐效果损失?



背景

618对京东来说是一场重要的营销盛会,大促将为业务各个层面带来爆发式增长。然而,超大规模的流量洪峰也对京东各系统提出了严峻考验。

京东联盟是京东的联盟营销平台,主要通过投放站外CPS广告来推广京东商品。联盟合作伙伴生成链接并在其他网站或社交媒体平台上推广,用户通过点击这些链接在京东购物,合作伙伴则获得销售提成(佣金)。京东联盟通过这种方式吸引流量,扩大平台的可见度和用户接触范围,实现拉新促活等目标。作为联盟业务流量的主战场,京东联盟推荐系统在大促期间面临着流量突变的巨大挑战。由于业务本身及营销活动和站外媒体引流推动的影响,大促期间推荐系统的流量呈现以下特点:

1.营销活动繁多且频率不一:系统流量波动频繁,难以预测。

2.营销力度及效果差异显著:冰点与爆点流量同时存在,流量分布极不均衡。

3.站外场景众多:目前已达数百个,不同场景流量的变化节奏各不相同。

4.红包活动具有秒杀特性:流量在急速拉升后断崖式下跌。例如,某次活动中,流量表现如下:

wKgZoma8GU-AH_pqAACZPPym4sM432.png

图中流量 QPS在19:59:57秒从3.7K开始增长,20:00:01秒达到峰值2.9W,随后的1分钟内逐步回落。流量在4秒内增长9倍,整个拉升和回降过程在1分钟内全部完成。



问题&挑战

面对上述流量变化的挑战,联盟推荐系统的备战面临以下重大障碍:

1.难以准确预估流量变化:导致无法提前准备充足的系统资源,系统有潜在的崩溃风险。

2.不同场景推荐策略与模型差异大:难以实现统一控制,管理和优化的复杂性升高。

3.流量瞬时大幅波动:需要系统具备秒级响应和调控能力,技术实现难度增加。



方案设计

因此,在推荐系统领域中,为了有效应对高频、瞬时、大幅的流量突变,我们需要一种“自适应”能力。这种能力应具备以下特性:

1. 差异化控制不同场景链路

场景识别与分级处理:系统应能够识别不同的业务场景和链路,对于不同重要性和紧急程度的场景进行差异化处理。例如,核心业务链路和次要链路可以有不同的降级策略,以确保关键功能的优先保障。

2. 自动化执行,无需人工干预

全自动化降级与恢复:通过智能化的监控和决策机制,系统能够在检测到流量异常时自动执行降级操作,并在条件恢复正常后自动恢复,无需人工干预,从而减少响应时间和人为错误。

3. 敏锐感知并随流量变化进行调整

实时监控与动态调整:系统应具备实时监控流量和性能指标的能力,并根据流量变化动态调整降级策略。这种敏锐的感知能力能够确保系统在流量突变时迅速做出反应,保持服务的稳定性。

4. 流量洪峰过后自动恢复至完整推荐

智能恢复机制:在流量洪峰过后,系统应能够自动检测流量回落情况,并逐步恢复至完整的推荐服务。这个恢复过程应是平滑且智能的,避免因过快恢复而引发新的性能问题。

5. 最小化推荐损失

精准降级与优化推荐:降级策略应尽可能精准,确保在降级过程中推荐质量和用户体验的损失最小化。通过优化推荐算法和策略,确保在资源受限的情况下仍能提供高质量的推荐服务。



方案实践

为实现上述自适应降级与恢复的能力目标,我们以如下思路进行方案设计。首先,监控不同场景流量的推荐耗时,根据性能变化将流量划分为主力流量和降级流量。接着,根据各召回通路、粗排、精排和重排的业务贡献及耗时,在总耗时限制下求得最优组合,确定降级链路。然后,通过调用链动态生成模块,生成实际的调用pipeline。最后,通过实时组织pipeline调用,完成整个降级推荐过程。

与此同时,在降级流量中,抽取小部分流量作为探测流量,检测流量洪峰是否已过去,以便及时进行降级恢复。以下是详细的设计实现:

1、实时高效性能感知

1.1、配置化超时阈值和守护协程

由于UMP统计数据对非0级黄金流程系统不开放秒级数据查询权限,并且UMP数据可能因流量不均衡等原因与具体实例机器上的性能存在较大差距,故而采用以下方法:

配置化超时阈值:为每个推荐场景和链路配置合理的超时阈值。

守护协程实时统计:在每个推荐服务实例上运行守护协程,实时监控请求的响应时间,并统计超时率。

1.2、威尔逊置信区间算法修正超时率

为了避免在流量低谷时的统计误差,引入威尔逊置信区间算法修正超时率。具体的Wilson修正公式如下:

wKgaoma8GVCAHLTYAABpjvJ8S-Y848.png

其中,P为当前统计的秒级超时率,WilsonP为置信超时率,z = 1.96(95%的置信水平)。

2. 差别化场景控制

•分场景统计耗时数据,配合各场景配置的耗时阈值,实现差别化控制。

3. 流量切分实现细粒度逐步降级

根据超时比例设置降级流量比例:只对降级流量进行降级,而非全部流量都降级。

策略决策:参考KMFP用户分层标签,对于不活跃和特征不丰富的用户,直接降级。对于高活跃和高价值用户,动态决策降级力度。

4. 动态线性规划推荐链路

根据各召回通路、粗排、精排和重排的CTCVR贡献值及其当前耗时,进行线性规划,在耗时限制下求得业务贡献最大化的最优解。

目标函数:最大化业务收益。

wKgZoma8GVGAJwLTAAAJomUAMKE658.png

约束条件:各模块的当前耗时不得超过设定阈值。

wKgZoma8GVKAU5bmAAAJAk3GVsI011.png

wKgaoma8GVeAMM8dAAACIp9birs767.png

其中,E1i为各召回通路的业务收益,E2、E3、E4分别为粗排、精排和重排的业务收益;T1i为各召回通路的当前耗时,T2、T3、T4分别为粗排、精排和重排的当前耗时(各模块的99耗时统计视情况配置为实时/近线方式,1~3秒);各W取值为0或1。问题即为求上述线性规划下的最优W组合,每当超时率发生阶跃变化时,重新计算最优解。

5. 实时组织pipeline调用

在得出上述W组合之后,由调用链生成器生成实际的调用关系pipeline,再交由管道调度器来组织调度完成整个推荐过程。

6. 小流量探测,阶梯式自动恢复

在降级状态下,周期性地从降级流量中抽取一定的小流量进行降级回弹测试,以监控是否流量回落或系统自动扩容。

回弹测试不通过:继续维持降级状态。

回弹测试通过:反向阶梯式逐级扩大回弹流量,直到全部降级流量都恢复至完全推荐。

7. 业务无关API,低成本移植

自适应降级模块设计了与具体业务无关的通用交互接口,包括收益与耗时数据输入、超时阈值设置、降级标志与降级组合查询等,可低成本移植到其他业务系统中。



在上述基础上,配合统一的限流防护和公司动态扩缩容技术,理论上联盟推荐系统可以做到足够的稳定性和推荐效果保障。以下是京东联盟自适应降级&恢复推荐系统的整体架构图:

wKgZoma8GVmAf12oAAHv2P1NtdE248.png

大促效果

本方案大促期间的业务效果有:

1.大促期间流量损失减少90%以上,对比以往活动高峰时的主动降级,系统可秒级完成自适应降级,结合serverless自动扩容策略,在分钟级别完成自动恢复。

2.联盟推荐系统的大促备战不再强依赖业务方评估峰值流量。

3.大促期间经历多次流量突变,均未依赖上游系统的降级保护。

4.大促期间零干预,零事故。



以上就是京东联盟广告推荐系统在大促期间保障稳定性和效果的相关工作,随着广告推荐业务进入存量时代的深水区,以及新推荐技术的不断涌现,我们要持续进化推荐系统,也欢迎大家一起交流学习。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 实时监控
    +关注

    关注

    1

    文章

    124

    浏览量

    14222
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    别踩分页坑!京东商品详情接口实战指南:从并发优化到数据完整性闭环

    京东商品详情接口(jingdong.ware.get)是电商数据开发的核心难点,本文详解其权限申请、分页优化、多规格递归解析与完整性校验等实战方案,结合代码示例与性能调优参数,助你高效
    的头像 发表于 09-30 15:50 856次阅读

    Linux系统性能优化技巧

    经过10年一线运维经验,我发现大多数工程师只掌握了Linux优化的冰山一角。今天分享的这些秘技,能让你的系统性能提升200%以上!
    的头像 发表于 08-27 14:34 633次阅读

    京东 API 赋能,京东店铺广告投放数据深度洞察

    店铺广告投放,并通过数据洞察优化策略,提升广告效果和投资回报率(ROI)。文章结构清晰,分为三部分:京东 API 简介、赋能广告投放的机制、
    的头像 发表于 08-15 14:48 599次阅读
    <b class='flag-5'>京东</b> API 赋能,<b class='flag-5'>京东</b>店铺<b class='flag-5'>广告</b>投放数据深度洞察

    Nginx并发优化方案

    作为一名在生产环境中摸爬滚打多年的运维工程师,我见过太多因为Nginx配置不当导致的性能瓶颈。今天分享一套完整的Nginx并发优化方案,帮助你的
    的头像 发表于 08-13 15:51 671次阅读

    厨房电器EMC整改:从测试到优化系统性解决方案

    南柯电子|厨房电器EMC整改:从测试到优化系统性解决方案
    的头像 发表于 08-12 11:29 570次阅读
    厨房电器EMC整改:从测试到<b class='flag-5'>优化</b>的<b class='flag-5'>系统性</b>解决方案

    Linux系统性能调优方案

    关键要点预览:本文将深入解析Linux系统性能瓶颈的根本原因,提供可直接落地的调优方案,让你的系统性能提升30-50%!
    的头像 发表于 08-06 17:49 590次阅读

    京东API集成订单系统,处理速度提升50%!

    ​ 在当今电商时代,高效的订单处理是企业成功的关键。京东作为中国领先的电商平台,其开放API为商家提供了强大的工具,能显著优化订单系统性能。本文将逐步介绍如何通过集成京东API,实现订
    的头像 发表于 07-28 14:54 358次阅读
    <b class='flag-5'>京东</b>API集成订单<b class='flag-5'>系统</b>,处理速度提升50%!

    Redis集群部署与性能优化实战

    Redis作为高性能的内存数据库,在现代互联网架构中扮演着关键角色。作为运维工程师,掌握Redis的部署、配置和优化技能至关重要。本文将从实战角度出发,详细介绍Redis集群的搭建、性能
    的头像 发表于 07-08 17:56 625次阅读

    Linux系统性能指南

    Linux服务器运行了很多应用,在负载下,服务器可能会出现性能瓶颈,例如CPU利用率过高、内存不足、磁盘I/O瓶颈等,从而导致系统卡顿,服务无法正常运行等问题。所以针对以上问题,可以通过调整内核参数和
    的头像 发表于 06-23 14:12 1485次阅读
    Linux<b class='flag-5'>系统性能</b>指南

    升降速曲线对直线电机系统性能影响的研究

    速曲线对直线电机系统性能影响的研究.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-17 08:48

    通信设备EMC整改:从测试到优化系统性解决方案

    深圳南柯电子|通信设备EMC整改:从测试到优化系统性解决方案
    的头像 发表于 06-16 11:10 522次阅读

    鸿蒙5开发宝藏案例分享---应用并发设计

    ?** 鸿蒙并发编程实战指南:解锁ArkTS多线程黑科技** 嘿,开发者朋友们! 今天给大家扒一扒鸿蒙官方文档里藏着的并发编程宝藏—— 100+实战场景解决方案 !从金融理财到游戏开发
    发表于 06-12 16:19

    TurMass™ 如何帮助解决 UWB 定位系统大规模终端标签并发通信冲突问题?

    在大容量定位终端数据并发场景中,现有通信技术因信号冲突、系统容量受限等问题,难以满足需求。TurMass™ 通信技术通过多信道设计、时隙划分、定位与通信一体化等创新方案,有效解决了
    的头像 发表于 03-17 14:38 784次阅读
    TurMass™ 如何帮助解决 UWB 定位<b class='flag-5'>系统</b>大规模终端标签<b class='flag-5'>高</b><b class='flag-5'>并发</b>通信冲突问题?

    如何优化总线系统性能

    总线系统是计算机和其他电子设备中用于传输数据的关键组件。性能优化可以提高数据传输速率、降低延迟,并增强系统的可靠性和扩展性。 1. 理解总线系统
    的头像 发表于 12-31 09:54 1091次阅读

    仿真系统性能优化技巧

    在现代工业和科学研究中,仿真系统扮演着越来越重要的角色。它们不仅能够帮助我们预测复杂系统的行为,还能在没有实际物理原型的情况下进行实验和测试。然而,随着仿真模型的复杂度增加,性能优化
    的头像 发表于 12-19 14:47 4079次阅读