0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

618 大促技术实践:定时任务异常重试的探索与沉淀​

京东云 来源:jf_75140285 作者:jf_75140285 2026-01-21 18:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在 618 大促的技术战场上,每一行代码、每一个配置都影响着一线的实实在在的业务。一次看似平常的发版,却意外暴露了我们系统中的定时任务管理短板,这促使我们深入剖析分布式任务调度中异常重试机制的技术细节,并最终将其转化为守护系统稳定性的坚固防线。​

一、异常事件回溯:隐藏在发版背后的定时炸弹​

发版次日,业务部门反馈商家未收到门店收货明细邮件,导致门店收货业务收到影响。技术团队迅速启动应急流程,通过全链路日志追踪和系统状态分析,发现了问题的根源是:发版过程中,由于服务重启,中断了定时任务进程,正在执行的邮件发送任务被意外终止。而该任务在管理平台上并未配置任何重试策略,业务代码上也没有进行相关的检测和重试,这就导致任务失败后无法自动恢复执行,也未被及时感知到,进而引发业务阻断。​

为解决燃眉之急,研发人员立即登录任务管理平台,手工触发邮件发送任务,确保业务及时恢复。但这次事件给我们敲响了警钟:在分布式任务调度场景下,面对网络抖动、进程异常终止等场景,异常重试机制是保障业务可靠性的关键。​

二、重试策略设计:从理论到代码的深度解析​

2.1 验证EasyJob的重试策略

在复盘问题的过程中,我们发现了EasyJob分布式任务是具有重试策略的,只是默认不开启,而不是默认开启。

wKgZO2lwqcuAOeQiAACLF2v3JKk941.png

该策略以三个核心参数为基础:首次重试间隔时间 F、重试间隔乘数 M 和最大重试次数 C。

通过这三个参数的组合,我们可以灵活控制任务重试节奏,平衡系统负载与任务恢复效率。​

例如:配置t=10s, M=2, C=10,则间隔时间依次是:

重试次数 nn 间隔时间计算方式 间隔时间结果
1 10s(初始间隔,无计算) 10s
2 10s×2 20s
3 20s×2 40s
4 40s×2 80s
5 80s×2 160s

验证日志:

21:45:29.990 [main-schedule-worker-pool-1-thread-1] INFO  cn.jdl.tech_and_data.EmailSendingTask - 开始执行发送邮件任务
21:45:40.204 [main-schedule-worker-pool-1-thread-2] INFO  cn.jdl.tech_and_data.EmailSendingTask - 开始执行发送邮件任务
21:46:00.674 [main-schedule-worker-pool-1-thread-3] INFO  cn.jdl.tech_and_data.EmailSendingTask - 开始执行发送邮件任务
21:46:41.749 [main-schedule-worker-pool-1-thread-4] INFO  cn.jdl.tech_and_data.EmailSendingTask - 开始执行发送邮件任务
21:48:02.398 [main-schedule-worker-pool-1-thread-5] INFO  cn.jdl.tech_and_data.EmailSendingTask - 开始执行发送邮件任务
21:50:43.008 [main-schedule-worker-pool-1-thread-1] INFO  cn.jdl.tech_and_data.EmailSendingTask - 开始执行发送邮件任务

任务序号 开始时间 与前一任务的间隔
第 1 个任务 21:45:29.990 -
第 2 个任务 21:45:40.204 10.214 秒
第 3 个任务 21:46:00.674 20.47 秒
第 4 个任务 21:46:41.749 41.075 秒
第 5 个任务 21:48:02.398 80.649 秒(约 1 分 20.65 秒)
第 6 个任务 21:50:43.008 160.61 秒(约 2 分 40.61 秒)

与上面计算的一致。

验证方案:

1、实现接口:com.wangyin.schedule.client.job.ScheduleFlowTask,并设置任务返回失败:

wKgZPGlwqcuAYwaiAAGTTki-K70246.png

2、创建CRON触发器

wKgZO2lwqcyAVRahAAFPmAjiAOE268.png

3、设置自动重试参数

wKgZPGlwqc2AYCZRAAFmPUXhWK8032.png

wKgZO2lwqc2ATNlwAABR8kEQqoU722.png

4、暂停任务并手工触发一次

wKgZPGlwqc6AdvOIAADkMSutJ5E726.png

2.2 实现一个简单的重试策略

根据上述策略,简单实现了一个灵活可配置的任务重试机制。

public class TaskRetryExecutor {
    @Getter
    private final ScheduledExecutorService executor = newScheduledThreadPool(10);
    private final long firstRetryInterval;
    private final int intervalMultiplier;
    private final int maxRetryCount;

    public TaskRetryExecutor(long firstRetryInterval, int intervalMultiplier, int maxRetryCount) {
        this.firstRetryInterval = firstRetryInterval;
        this.intervalMultiplier = intervalMultiplier;
        this.maxRetryCount = maxRetryCount;
    }

    public void submitRetryableTask(Runnable task) {
        executeWithRetry(task, 1);
    }

    private void executeWithRetry(Runnable task, int currentRetryCount) {
        executor.schedule(() -> {
            try {
                task.run();
                log.info("任务在第{}次尝试时成功执行", currentRetryCount);
            } catch (Exception e) {
                log.error("任务在第{}次尝试时执行失败", currentRetryCount, e);
                if (currentRetryCount <= maxRetryCount) {
                    long delay = calculateRetryDelay(currentRetryCount);
                    log.info("计划在{}毫秒后进行第{}次重试", delay, currentRetryCount);
                    executeWithRetry(task, currentRetryCount + 1);
                } else {
                    log.error("超过最大重试次数。任务执行最终失败。");
                }
            }
        }, currentRetryCount == 1 ? 0 : calculateRetryDelay(currentRetryCount), TimeUnit.MILLISECONDS);
    }

    public long calculateRetryDelay(int retryCount) {
        if (retryCount == 1) {
            return firstRetryInterval;
        } else if (retryCount > 1 && retryCount <= maxRetryCount) {
            long previousDelay = calculateRetryDelay(retryCount - 1);
            return previousDelay * intervalMultiplier;
        }
        return -1; // 超出最大重试次数,返回错误标识
    }
}

​在上述代码中:

1.TaskRetryExecutor类封装了任务重试的核心逻辑。构造函数接收三个关键参数:firstRetryInterval、intervalMultiplier和maxRetryCount,用于配置重试策略,对应于EasyJob的F、M、C参数。

2.submitRetryableTask方法接收一个可执行任务,并启动重试流程。它调用executeWithRetry方法,初始重试次数为1。

3.executeWithRetry方法是重试逻辑的核心。它使用ScheduledExecutorService来调度任务执行:

◦如果任务执行成功,记录成功日志。

◦•如果任务执行失败且未超过最大重试次数,计算下一次重试的延迟时间,并递归调用自身进行重试。

◦•如果超过最大重试次数,记录最终失败日志。

4.calculateRetryDelay方法实现了重试间隔的计算规则:

◦第一次重试使用firstRetryInterval。

◦之后的重试间隔是前一次间隔乘以intervalMultiplier。

◦如果超出最大重试次数,返回-1表示错误。

通过这种设计,我们实现了一个可复用、可配置的任务重试机制。它能够根据配置的参数自动调整重试间隔,在任务失败时进行有策略的重试,同时避免无限重试导致的资源浪费。

详细代码可在以下Git仓库中找到:git@coding.jd.com:newJavaEngineerOrientation/TaskRetryStrategies.git

2.3 重试策略的理论分析

2.3.1 EasyJob对乘数和最大重试次数的限制

在对EasyJob也进行了重试的验证中发现:

1.每次重做的乘数取值范围是[1,8],可以是具有一位小数位的浮点数,比如3.5,

2.最多重做次数是[1,16]间的整数,第一次重试的间隔没有限制,单位是秒。

wKgZO2lwqc-ACO7aAABJAe65RVI089.png

2.3.2 梯度分析

通过上面的验证和重试相关概念的定义,可以得到:第n次重试的间隔时间=第一次间隔时间*乘数^(n-1),即:

wKgZPGlwqc-AOcT4AAATC_QVeIE117.png

其中:

wKgZO2lwqdCAJ3QSAACjMe7lY8o552.png

对乘数M的梯度:

wKgZPGlwqdCAKFRdAAA2xLbEicA973.png

对重试次数n的梯度:

wKgZO2lwqdGAeJ3-AAAyy_Tn6xM481.png

详细推导: http://xingyun.jd.com/codingRoot/newJavaEngineerOrientation/TaskRetryStrategies/blob/master/src/main/resources/%E5%85%AC%E5%BC%8F%E6%8E%A8%E5%AF%BC.md

从下图可以看出,重试次数n较大时(比如8),乘数 M 的细微变化都会导致,任务的间隔时间发生剧烈变化,因此n超过8之后,M基本不可调。

wKgZPGlwqdOAfPd0AAfL8Q9I66g443.png

同样的,从下图可以看到,乘数M较大时(比如4),n的细微变化也会导致任务的间隔时间爆发式的增加。

wKgZO2lwqdWAfPmvAAgnK_L1TwE785.png

1、乘数在1.5-4 的合理性

过小乘数 (<1.5) 的问题:

当乘数 = 1.2,重试 10 次的间隔时间是:1次:1, 2次:1.2, 3次:1.44, ..., 10次:5.16,

10 次重试总间隔仅 5 倍,接近固定间隔,可能导致 "惊群效应"(大量请求同时重试)。

过大乘数 (>4) 的问题

当乘数 = 8,重试 5 次的间隔时间:1次:1, 2次:8, 3次:64, 4次:512, 5次:4096

5 次重试后间隔已超 1 小时(假设初始间隔时间是最小的1s,4096s>1小时),可能导致请求长时间等待,用户体验差。

因此,乘数 = 1.5-4 在 "退避效率" 和 "资源消耗" 间取得平衡,一般取乘数= 2 (标准指数退避)。

行业实践:AWS SDK 默认乘数 = 2,Google gRPC 重试策略推荐乘数 = 1.5-3,多数 HTTP 客户端库 (如 requests) 默认乘数 = 2。

2、最大重试次数3-10的合理性

假设单次重试成功概率为P(比如网络/服务临时故障,重试成功概率通常较高),重试 n次至少成功 1 次的概率为:

wKgZPGlwqdaARJINAAA9Slly32Q913.png

当 p=0.5,(单次重试 50% 成功概率):

n=3 时,成功概率 =1−(0.5)^3=87.5%

n=5 时,成功概率 =1−(0.5)^5=96.875%

n=10 时,成功概率 =1−(0.5)^10≈99.9%

实际场景中,临时故障的单次成功概率远高于 50%(比如网络抖动重试成功概率可能达 80%)

若 p=0.8,n=3时成功概率已达 1−0.2^3=99.2%几乎覆盖所有临时故障。

因此,3 - 10 次重试,能以极高概率(99%+)覆盖“临时故障”场景,再增加次数对成功概率提升极有限(边际效应递减)。

因为已知的任务延迟时间的公式是:

wKgZPGlwqc-AOcT4AAATC_QVeIE117.png

n从1到C进行累加得到总耗时:

wKgZPGlwqdaAeXU-AAAqYzvPZZU546.png

根据等比数列求和公式可以得到:

wKgZO2lwqdeAFbzIAAAh_MoiqEI357.png

令 M=2(常用乘数),F=1 秒(最小可能值):

n=3时,T=(2^3-1)/(2-1)=7秒

n=5时,T=(2^5-1)/(2-1)=31秒

n=10时,T=2^10-1=1023秒≈17分钟

n=13时,T=2^13-1≈2.3小时

n=15时,T=2^15-1≈9.1小时

当n超过10后,每次增加都会导致总耗时急剧增长,很容易超过业务的容忍上限(具体业务具体分析),也可能因为重试过多,导致被调用的系统压力增加,甚至造成系统崩溃。

故:3 - 10 次重试可将总耗时控制在“业务可接受范围”(几秒到十几分钟),同时避免资源过载。

行业实践:Kafka 消费者重试:默认 10 次、Redis 客户端重试:默认 5 次、Hadoop 任务重试:默认 3-5 次、RFC 建议:RFC 6582(HTTP 重试)建议:3-5 次重试。

3、最佳实践速查表

参数 短期任务(分钟级) 中期任务(小时级) 长期任务(天级)
乘数 2 2 1.75
重试次数 3 - 5 5 - 8 8 - 12
初始间隔(秒) 1 - 5 30 - 60 300 - 600
总耗时范围 <60秒 5 - 10分钟 1 - 2小时
适用场景 临时网络波动 服务重启、发版 服务短暂过载 资源密集型操作

三、经验沉淀:异常重试机制的设计原则​

通过这次实践和对行业方案的研究,我们总结出异常重试机制设计的四大核心原则:​

1.动态适应性原则:重试策略应支持参数化配置,根据业务场景和系统负载动态调整重试间隔和次数,避免 “一刀切” 的重试策略对系统造成冲击。​

2.幂等性保障原则:确保任务在多次重试过程中不会产生重复数据或副作用,通过唯一标识、状态机等技术手段,实现任务的幂等执行。​

3.故障隔离原则:将重试逻辑与业务逻辑分离,通过消息队列、异步调度等方式,降低重试操作对主线程的影响,避免因重试失败导致系统整体崩溃。​

4.可观测性原则:建立完善的监控和告警体系,实时追踪任务重试状态,在达到最大重试次数时及时发出告警,便于运维人员快速定位和解决问题。​

四、结语:以技术沉淀筑牢大促防线​

这次线上异常事件,犹如一面镜子,让我们清晰地看到了系统中的潜在风险,也为我们提供了一次宝贵的技术提升机会。通过对异常重试机制的深入研究和实践,我们不仅解决了当前问题,更将这些经验转化为团队的技术资产。在未来的 618 大促及其他关键业务场景中,我们将以更完善的技术方案、更严谨的设计原则,守护系统的稳定运行,为业务发展提供坚实的技术保障。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 分布式
    +关注

    关注

    1

    文章

    1114

    浏览量

    76697
  • 任务调度
    +关注

    关注

    0

    文章

    28

    浏览量

    10213
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索HMC618ALP3E:1.2 - 2.2 GHz GaAs SMT pHEMT低噪声放大器

    探索HMC618ALP3E:1.2 - 2.2 GHz GaAs SMT pHEMT低噪声放大器 在电子工程师的日常工作中,低噪声放大器(LNA)是射频前端设计的关键组件,它直接影响着系统的灵敏度
    的头像 发表于 04-21 13:45 74次阅读

    基于知识工程JoyAgent双RAG的智能代码评审系统的探索实践

    备战中的代码评审困境与破局 双十一大是系统稳定性的终极“大考”。为规避上线风险,技术侧会启动系统封板管控,主动将非紧急需求的发布窗口前置。这一举措在保障系统稳定性的同时,也必然导致研发需求
    的头像 发表于 01-21 18:26 2303次阅读
    基于知识工程JoyAgent双RAG的智能代码评审系统的<b class='flag-5'>探索</b>与<b class='flag-5'>实践</b>

    基于知识工程&amp;JoyAgent双RAG的智能代码评审系统的探索实践

    备战中的代码评审困境与破局 双十一大是系统稳定性的终极“大考”。为规避上线风险,技术侧会启动系统封板管控,主动将非紧急需求的发布窗口前置。这一举措在保障系统稳定性的同时,也必然导致研发需求
    的头像 发表于 01-15 15:12 316次阅读
    基于知识工程&amp;JoyAgent双RAG的智能代码评审系统的<b class='flag-5'>探索</b>与<b class='flag-5'>实践</b>

    探索HMC618ALP3E:高性能低噪声放大器的卓越之选

    探索HMC618ALP3E:高性能低噪声放大器的卓越之选 在电子设备的设计中,低噪声放大器(LNA)扮演着至关重要的角色,尤其是在对信号质量要求极高的无线通信领域。今天,我们就来深入了解一款出色
    的头像 发表于 01-04 14:40 339次阅读

    看门狗定时器、复位源、异常处理机制科普

    在嵌入式开发中,系统一旦“跑飞”,工程师最怕的不是bug,而是程序卡死无人知。这时,芯片自身的自我保护机制就至关重要。看门狗、复位源和异常处理机制,是保证系统可靠性的三大基石。本文带你梳理清楚它们
    的头像 发表于 11-17 10:53 1672次阅读
    看门狗<b class='flag-5'>定时</b>器、复位源、<b class='flag-5'>异常</b>处理机制科普

    Crontab定时任务完全指南

    在凌晨3点,当大多数人还在熟睡时,一位运维工程师的手机突然响起——线上数据库备份失败了。他匆忙起床,打开电脑,手动执行备份脚本,整个过程耗时2小时。这样的场景,在我刚入行时经常遇到。直到我真正掌握了crontab定时任务,才彻底摆脱了"人肉运维"的窘境。
    的头像 发表于 09-05 10:03 1014次阅读

    h618的armbian 镜像解包,打包

    寻找大佬指导全志h618的armbian 镜像用imgRePacker 解包以后,我用mount挂载修改了rootfs 文件以后,如何打包,直接复制进来替换以后,烧录报错
    发表于 08-29 11:32

    基于 AS32X601 微控制器的定时器模块(TIM)技术研究与应用实践

    摘要: 本文全面介绍了国科安芯推出的AS32X601系列微控制器的定时器模块(TIM),包括其系统架构、功能特性、应用场景以及工程实践要点。通过对芯片的详细分析,揭示了其高性能运行的基础。本文详细
    的头像 发表于 08-19 16:44 1012次阅读

    使用C#实现西门子PLC数据定时读取保存

    在平时开发中,我们时常会遇到需要后台静默运行的应用场景,这些程序不需要用户的直接操作或界面展示,而是专注于定时任务的执行。比如说,我们需要定期从西门子PLC(可编程逻辑控制器)中读取数据并进行保存,以便后续分析使用。
    的头像 发表于 08-07 16:17 2595次阅读
    使用C#实现西门子PLC数据<b class='flag-5'>定时</b>读取保存

    618结束,安防摄像头市场战况何如?

    618活动结束,安防领域产品销量增长。
    的头像 发表于 06-30 17:21 1128次阅读

    商汤科技元萝卜AI下棋机器人618回顾

    在刚刚落幕的2025年京东618中,元萝卜交出了一份亮眼的成绩单。
    的头像 发表于 06-27 17:12 1678次阅读

    机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    本文转自:DeepHubIMBA无监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与
    的头像 发表于 06-24 11:40 1600次阅读
    机器学习<b class='flag-5'>异常</b>检测实战:用Isolation Forest快速构建无标签<b class='flag-5'>异常</b>检测系统

    德施曼618首战全平台销额、销量双冠军!京东天猫官榜第一!

    5月13日晚,各大电商618拉开序幕,相比往年再度提前。高端智能锁领军品牌德施曼现货开售第一天勇夺全平台智能锁销额&销量双冠军!高端智能锁销额&销量冠军!其中,德施曼稳居京东智能
    的头像 发表于 06-19 12:32 995次阅读
    德施曼<b class='flag-5'>618</b>首战全平台销额、销量双冠军!京东天猫官榜第一!

    HarmonyOS优化应用文件上传下载慢问题性能优化一

    。调试模式可打印所有内存修改、磁盘、网络读写、逻辑分支等日志。发布模式下除了导致任务失败、服务异常的日志,其余日志都会关闭。 任务失败重试:对于不可恢复的原因,直接失败;对于可恢复的原
    发表于 05-26 15:50

    德施曼618首战全平台销额、销量双冠军!京东天猫官榜第一!

    5月13日晚,各大电商618拉开序幕,相比往年再度提前。高端智能锁领军品牌德施曼现货开售第一天勇夺全平台智能锁销额&销量双冠军!高端智能锁销额&销量冠军!其中,德施曼稳居京东智能
    的头像 发表于 05-14 16:08 1676次阅读
    德施曼<b class='flag-5'>618</b>首战全平台销额、销量双冠军!京东天猫官榜第一!