0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从校园实验室到京东零售:一位算法工程师的风控实战录

京东云 来源:jf_75140285 作者:jf_75140285 2025-05-22 16:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大家好,我是王晓婷,在京东零售研究广告反作弊算法设计、实现与优化,结合LLM、深度学习、强化学习赋能反作弊系统,用算法识别和打击数字广告领域的欺诈行为。本文与大家分享我从高校实验室到广告风控战场的蜕变,一场关于认知觉醒、技术探索与思维重构的旅程。

象牙塔与工业界的思维碰撞

在清华园求学期间,我开始接触数据挖掘竞赛,那时常沉浸于算法优化的世界里。和许多初学者一样,我认为模型指标就是解决问题的万能钥匙,一次一次在异常检测项目中投入大量精力,当在看到95%+准报率和低于0.35%的误报率时,那种纯粹的喜悦让我对技术产生了近乎理想化的信仰。


wKgZPGgu4s6AV5xHABf_kZpiRAQ783.png


图1. 曾发表论文中算法取得的高准异常检测结果(误报率仅为0.35%以下)


实验室的环境确实为研究提供了理想条件:规整的数据集、清晰的问题边界、稳定的评估体系。这种纯粹的科研训练让我打下了扎实的基础,但也无形中构建了某种思维定式。


毕业后,我加入京东,投身于广告风控的实战战场,一场认知的风暴悄然来袭,在一次电商大促期间,现实给我上了深刻的一课。面对流量洪峰、以及洪峰中涌现的虚假流量,我曾引以为傲且平稳调度的模型出现了资源和作弊识别之间的掣肘,实验室里的“完美指标”、优秀的“AUC、TPR、FPR”,在海量流量面前凸显苍白,工业界需要的是能在混沌中能持续进化的解决方案。面对这样的挑战和日新月异的反作弊需求,迫使我重新审视技术应用的边界,在技术可能性、业务价值与实施成本之间寻找平衡点,这个过程至今仍在持续。

京东的“反作弊大脑”就像一位24小时在线的智能侦探,主要从多维度打击作弊行为:在用户端利用大模型识别假交易,通过智能算法自动揪出异常订单;在流量端分析每个广告点击的数百项特征,一旦发现异常行为,立刻拦截,保障广告主的每一分钱都花在真实用户身上。


技术侦探,用AI破解黑产的加密暗号


CPS模式本是为激励优质推广设计的共赢机制,在激励众多联盟伙伴积极推广的同时,也滋生了黑灰产的关注。在广告CPS中,黑灰产为了骗取平台佣金,极尽所能地在地址信息中藏匿各种暗号,这些暗号仿若隐秘的“密码”,在看似平常的地址文本中隐匿着其真实的不轨意图,损害平台利益,致使CPS佣金流失。


一种典型的作弊方式是,在用户下单时填写一个无法正常派送的“真假参半”地址。黑灰产为了实现不法目的,精心设计出各种暗号嵌入地址信息,给传统文本检测方法带来了巨大挑战。


面对这种新型作弊手段,我们持续观测数据,发现即便不断添加过滤规则,异常订单仍像地鼠般此起彼伏,基于正则表达式的策略方式无法适应日新月异的暗号变种。这让我意识到:必须突破文本表面特征,深入语义层面理解地址信息(详细细节见 文本异常检测:利用大模型侦测地址暗号 )。


在团队技术讨论中,我尝试将大模型引入检测系统。在NLP的世界里,大模型如同超级侦探通过深度的网络层和亿级参数,超前掌握语言的深层次结构和语义。在地址异常检测问题中,大模型的核心能力也能得到很好发挥。基于开源大语言模型并结合LoRA微调技术降低训练成本,让人工标注的数千条异常地址样本教会模型识别"异常模式"。


其次,在地址的生成式识别中,我基于人类反馈的强化学习框架(RHLF框架),在模型给予错误答案时及时纠偏,并会及时收集人类专家的判断,并将这些反馈纳入强化学习过程。


通过LLM+RHLF训练,模型逐渐学会了根据上下文来判断数字是否属于暗号的“生成式识别能力”。比如在类似”3栋78910单元1023室”、“3栋2单元1023室ATTTT233”这样的地址中,大模型通过生成式推理识别出"78910"、“ATTTT233”这类伪装地址,实现了异常订单地址的生成式精准抓取,这正是传统正则表达式无法企及的语义穿透力和识别能力。


经过了三个版本的迭代优化,这套系统实现了精准识别与高效运行的平衡,模型的误判率降至0.3%,实现准确识别出各类显性暗号和隐蔽性暗号。这也是我第一次通过将大模型技术与CPS业务场景深度融合,构建了更加精准和高效的反作弊防护体系。


不做最炫的技术,只做最有效的方案


随着广告作弊手段的不断升级进化,反作弊技术正面临前所未有的挑战。从早期的单一IP代理,到如今的分布式攻击网络;从简单的机器群控,到精心设计的真人骗佣产业链,黑产集团正在以惊人的速度迭代他们的作弊手法。这种"道高一尺,魔高一丈"的对抗态势,让传统的基于统计规则的防御体系逐渐力不从心。就像一位经验丰富的老刑警突然面对一群装备精良的高智商罪犯,旧有的破案方法开始显得捉襟见肘。


在这样的背景下,我们尝试将大模型的上下文理解能力引入行为序列分析领域。基于LLM技术,我们构建了一套全新的反作弊系统(详细细节见 AIGC风控系统:大模型重塑广告安全新范式 )。这套系统就像一位拥有超强洞察力的侦探,通过深度解析用户行为轨迹中的矛盾点,识别隐藏在正常交互模式下的异常信号


wKgZO2gu4tCAXQg9AAUP8HlYBzM403.png



图2:基于LLM的流量多阶段防御


然而,面对京东主站的巨大流量,LLM虽然具备获得优秀的生成式识别能力,却很难在当前资源和耗时要求下实现实时在线推理。为了解决这个“既要精准又要快速”的难题,我采用了蒸馏技术:让大模型担任”资深教授”,小模型作为“尖子生”,通过特征层蒸馏,将大模型的“办案经验”提炼传授给小模型,经过十余个版本的迭代打磨,最终实现了精度与速度的完美平衡。


这个过程中,我深刻体会到:真正的技术创新,不是简单粗暴地把最新技术塞进业务场景,而是要在学术前沿与工业实践之间找到那个微妙的平衡点。像一位技艺精湛的工匠,既要知道最先进的工具怎么用,更要明白什么时候该用什么样的工具。这种平衡不仅需要对技术有深刻的理解,还需要对业务有深入的洞察。

在从学术研究到工业实践的跨越中,我深刻体会到广告风控的本质是一场多维度的复杂博弈。有三点核心认知与各位分享:


1. 成本意识驱动技术选型,技术人也要会算账

在公司海量流量和实战场景中,技术人不仅要关注技术本身的先进性,还需要从数据规模、计算成本和产出价值三个维度综合评估模型的应用。数据规模决定了模型的训练深度,而计算成本则直接影响到模型的实时性。最终,产出价值体现在误判率的降低和业务损失的减少上。


技术方案不是越fancy越好,现在每次做模型选型,我都会清晰评估,每提升1%准确率需要多少标注成本?降低10ms延迟能多拦截多少欺诈订单?这种量化思维帮助我们找到技术投入的黄金平衡点。


2. 持续进化知识体系,充分熟悉业务

在阅读《Attention Is All You Need》等专业文献时,我发现了Attention机制在异常检测中的巨大潜力,并成功将其应用于自部署大语言模型的优化。这一过程中,我学会了如何从大量的研究成果中筛选出对业务有价值的洞见和创新想法。这不仅需要对技术有深刻的理解,还需要具备敏锐的技术敏感度,能够快速识别和应用前沿技术。


此外,知识体系不仅包括上述的算法前沿,也包括业务洞察力的钻研能力,只有充分熟悉业务,才能快速通过算法赋能业务,为技术的迭代和创新制定坚实的基础。


3. 跨领域思考,拥有主动破局的力量

在面对黑产日新月异的攻击时,我们必须比对手进化得更快。在处理CPS佣金欺诈的场景中,我利用博弈论模型预测黑灰产可能使用的地址暗号设计模式,并提前调整检测prompt,以此来阻止他们的欺诈行为。这种方法就像是在一场智力游戏中,通过预测对手的下一步行动,提前布局,从而保持主动。


在面对黑产带来的虚假流量时,我借鉴了复杂系统理论中的耗散结构理论,应对“作弊熵增”的问题。黑产的攻击手段越来越复杂,像是一个不断变化的系统,为了应对这种变化,我在防御系统中引入了随机性和非线性反馈机制,使得我们的防御系统能够像一个活的有机体一样,具备自适应和进化的能力。


写在最后


技术人需要构建"T型能力":既要具备垂直领域的技术深度,又要拥有横向拓展的视野广度。


这种能力结构不仅能有效应对当前的业务挑战,更能为未来的技术革新提供坚实基础。我也要求自己持续精进技术深度、敏锐培养商业敏感度、始终坚守人文关怀。不断探索大模型的技术潜力,深入理解业务的核心诉求,同时确保技术应用始终符合伦理规范和用户利益。


技术人的浪漫,或许就在于这种永不停歇的攻防之舞。每当看到凌晨的A/B test中降低的后链路作弊率,看板中实现的业务目标,上线带来的一次次可观价值,都是数字时代风控守护者的微小确幸。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97146
  • 京东云
    +关注

    关注

    0

    文章

    200

    浏览量

    235
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    SAW 滤波器原理到测量:套可复用的实验室实战流程

    实战测量流程。测试治具、矢网校准到 S 参数与群时延的判读,给出套可复用、可重复的 SAW 滤波器实验室测量方法,帮助工程师把 dat
    的头像 发表于 11-20 14:32 3199次阅读
    SAW 滤波器<b class='flag-5'>从</b>原理到测量:<b class='flag-5'>一</b>套可复用的<b class='flag-5'>实验室</b><b class='flag-5'>实战</b>流程

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。之江实验室
    的头像 发表于 10-23 10:50 1024次阅读

    安卓工控体机在智慧新零售市场领域的应用分析

    在智慧零售市场规模突破2000亿的赛道上,安卓工控体机正以 “隐形中枢” 的角色,重塑无人零售的运营逻辑与消费体验。
    的头像 发表于 09-22 11:28 421次阅读
    安卓工控<b class='flag-5'>一</b>体机在智慧新<b class='flag-5'>零售</b>市场领域的应用分析

    电子发烧友工程师看!电子领域评职称,技术之路更扎实

    。比如一位电源工程师,评职称前主要做基础电源调试;评上 “高级电源工程师” 后,受邀参与电子发烧友 “电源技术研讨会” 做分享,还接到厂商委托的高功率密度电源开发项目,项目成果被平台推荐为 “年度技术
    发表于 08-20 13:53

    京东零售在智能供应链领域的前沿探索与技术实践

    近日,“智汇运河 智算未来”2025人工智能创新创业大会在杭州召开。香港工程科学院院士、香港大学副校长、研究生院院长、讲座教授、京东零售供应链首席科学家申作军教授与供应链算法团队技术总
    的头像 发表于 08-04 16:10 819次阅读
    <b class='flag-5'>京东</b><b class='flag-5'>零售</b>在智能供应链领域的前沿探索与技术实践

    【免费送书】电源工程师的实用手册:开关电源控制环路设计实战秘籍

    开关电源控制环路设计:ChristopheBasso的实战秘籍开关电源(开关变换器)的环路稳定性设计是每一位电源工程师在研发过程中必须面对的挑战。目前市面上大多数开关电源设计参考书都会涉及环路
    的头像 发表于 07-01 08:07 988次阅读
    【免费送书】电源<b class='flag-5'>工程师</b>的实用手册:开关电源控制环路设计<b class='flag-5'>实战</b>秘籍

    重构零售数智化:Splashtop 8大核心场景应用实践

    当下,零售业正加速拥抱智慧化转型。面对门店设备管理分散、IT运维成本高企、跨区域协同效率低下、数据安全风险攀升等诸多挑战,零售企业急需通过技术创新实现设备高效管理、降低运维成本、保障业务连续性。
    的头像 发表于 06-23 17:36 804次阅读
    重构<b class='flag-5'>零售</b>数智化:Splashtop 8大核心场景应用实践

    微软邀您相约2025全零售AI火花大会

    零售业AI转型已进入深水区,碎片化尝试难破困局。5月8日至9日,由中国连锁经营协会主办的“全零售AI火花大会”将在深圳召开。微软携手中国移动、海尔、玛氏、嘉士伯等零售领军企业,多角度输出AI转型落地方法论邀你
    的头像 发表于 04-28 11:19 975次阅读

    实验室安全管理成焦点,汉威科技赋能实验室安全升级

    实验室是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。近年来,各高校、研究院所、科创园区、高新产业园区相关企业的实验室呈现爆发
    的头像 发表于 04-10 10:41 706次阅读
    <b class='flag-5'>实验室</b>安全管理成焦点,汉威科技赋能<b class='flag-5'>实验室</b>安全升级

    :集成电路封装测试实验室建设的关键要素

    集成电路封装测试实验室的建设是项涉及多学科、多环节的系统工程研发型实验室的精准温控需求到量产型实验
    的头像 发表于 03-08 14:40 733次阅读
    <b class='flag-5'>从</b><b class='flag-5'>零</b>到<b class='flag-5'>一</b>:集成电路封装测试<b class='flag-5'>实验室</b>建设的关键要素

    MWC 2025 | 移远通信推出AI智能无人零售解决方案,以“动态视觉+边缘计算”引领智能零售新潮流

    在无人零售市场蓬勃发展的浪潮中,自动售货机正经历着传统机械式操作向AI视觉技术的重大跨越。移远通信作为全球领先的物联网整体解决方案供应商,精准把握行业趋势,在2025世界移动通信大会(MWC)上
    的头像 发表于 03-04 19:02 778次阅读
    MWC 2025 | 移远通信推出AI智能无人<b class='flag-5'>零售</b>解决方案,以“动态视觉+边缘计算”引领智能<b class='flag-5'>零售</b>新潮流

    TÜV莱茵苏州汽车部件实验室获奇瑞汽车认可

    苏州2025年2月28日 /美通社/ -- 近日,国际独立第三方检测、检验和认证机构德国莱茵TÜV大中华区(以下简称"TÜV莱茵")位于苏州太仓的汽车部件实验室获得了奇瑞汽车股份有限公司 (以下
    的头像 发表于 03-03 16:38 616次阅读
    TÜV莱茵苏州汽车<b class='flag-5'>零</b>部件<b class='flag-5'>实验室</b>获奇瑞汽车认可

    京东零售数据资产能力升级与实践

    作者:京东零售 韩雷钧 开篇 京东自营和商家自运营模式,以及伴随的多种运营视角、多种组合计算、多种销售属性等数据维度,相较于行业同等量级,数据处理的难度与复杂度都显著增加。如何海量的
    的头像 发表于 02-21 09:50 796次阅读
    <b class='flag-5'>京东</b><b class='flag-5'>零售</b>数据资产能力升级与实践

    熵基云联入选《零售媒体化专项研究报告》

    零售媒体化实践典范,成功脱颖而出,成为报告中的亮点之。 作为零售媒体化领域的先锋,熵基云联直致力于探索和实践零售与媒体的深度融合。其自
    的头像 发表于 02-17 11:17 811次阅读

    物联网如何改变零售行业

    零售商深知,节日的热闹气氛让顾客们忙着寻找完美的礼物和抓住年终优惠。这直是公司最繁忙的时期之,客流量和销售额大幅增加。为应对激增的需求,零售商正转向引入物联网(IoT)技术,以通过
    的头像 发表于 01-14 09:27 1202次阅读