0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从校园实验室到京东零售:一位算法工程师的风控实战录

京东云 来源:jf_75140285 作者:jf_75140285 2025-05-22 16:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大家好,我是王晓婷,在京东零售研究广告反作弊算法设计、实现与优化,结合LLM、深度学习、强化学习赋能反作弊系统,用算法识别和打击数字广告领域的欺诈行为。本文与大家分享我从高校实验室到广告风控战场的蜕变,一场关于认知觉醒、技术探索与思维重构的旅程。

象牙塔与工业界的思维碰撞

在清华园求学期间,我开始接触数据挖掘竞赛,那时常沉浸于算法优化的世界里。和许多初学者一样,我认为模型指标就是解决问题的万能钥匙,一次一次在异常检测项目中投入大量精力,当在看到95%+准报率和低于0.35%的误报率时,那种纯粹的喜悦让我对技术产生了近乎理想化的信仰。


wKgZPGgu4s6AV5xHABf_kZpiRAQ783.png


图1. 曾发表论文中算法取得的高准异常检测结果(误报率仅为0.35%以下)


实验室的环境确实为研究提供了理想条件:规整的数据集、清晰的问题边界、稳定的评估体系。这种纯粹的科研训练让我打下了扎实的基础,但也无形中构建了某种思维定式。


毕业后,我加入京东,投身于广告风控的实战战场,一场认知的风暴悄然来袭,在一次电商大促期间,现实给我上了深刻的一课。面对流量洪峰、以及洪峰中涌现的虚假流量,我曾引以为傲且平稳调度的模型出现了资源和作弊识别之间的掣肘,实验室里的“完美指标”、优秀的“AUC、TPR、FPR”,在海量流量面前凸显苍白,工业界需要的是能在混沌中能持续进化的解决方案。面对这样的挑战和日新月异的反作弊需求,迫使我重新审视技术应用的边界,在技术可能性、业务价值与实施成本之间寻找平衡点,这个过程至今仍在持续。

京东的“反作弊大脑”就像一位24小时在线的智能侦探,主要从多维度打击作弊行为:在用户端利用大模型识别假交易,通过智能算法自动揪出异常订单;在流量端分析每个广告点击的数百项特征,一旦发现异常行为,立刻拦截,保障广告主的每一分钱都花在真实用户身上。


技术侦探,用AI破解黑产的加密暗号


CPS模式本是为激励优质推广设计的共赢机制,在激励众多联盟伙伴积极推广的同时,也滋生了黑灰产的关注。在广告CPS中,黑灰产为了骗取平台佣金,极尽所能地在地址信息中藏匿各种暗号,这些暗号仿若隐秘的“密码”,在看似平常的地址文本中隐匿着其真实的不轨意图,损害平台利益,致使CPS佣金流失。


一种典型的作弊方式是,在用户下单时填写一个无法正常派送的“真假参半”地址。黑灰产为了实现不法目的,精心设计出各种暗号嵌入地址信息,给传统文本检测方法带来了巨大挑战。


面对这种新型作弊手段,我们持续观测数据,发现即便不断添加过滤规则,异常订单仍像地鼠般此起彼伏,基于正则表达式的策略方式无法适应日新月异的暗号变种。这让我意识到:必须突破文本表面特征,深入语义层面理解地址信息(详细细节见 文本异常检测:利用大模型侦测地址暗号 )。


在团队技术讨论中,我尝试将大模型引入检测系统。在NLP的世界里,大模型如同超级侦探通过深度的网络层和亿级参数,超前掌握语言的深层次结构和语义。在地址异常检测问题中,大模型的核心能力也能得到很好发挥。基于开源大语言模型并结合LoRA微调技术降低训练成本,让人工标注的数千条异常地址样本教会模型识别"异常模式"。


其次,在地址的生成式识别中,我基于人类反馈的强化学习框架(RHLF框架),在模型给予错误答案时及时纠偏,并会及时收集人类专家的判断,并将这些反馈纳入强化学习过程。


通过LLM+RHLF训练,模型逐渐学会了根据上下文来判断数字是否属于暗号的“生成式识别能力”。比如在类似”3栋78910单元1023室”、“3栋2单元1023室ATTTT233”这样的地址中,大模型通过生成式推理识别出"78910"、“ATTTT233”这类伪装地址,实现了异常订单地址的生成式精准抓取,这正是传统正则表达式无法企及的语义穿透力和识别能力。


经过了三个版本的迭代优化,这套系统实现了精准识别与高效运行的平衡,模型的误判率降至0.3%,实现准确识别出各类显性暗号和隐蔽性暗号。这也是我第一次通过将大模型技术与CPS业务场景深度融合,构建了更加精准和高效的反作弊防护体系。


不做最炫的技术,只做最有效的方案


随着广告作弊手段的不断升级进化,反作弊技术正面临前所未有的挑战。从早期的单一IP代理,到如今的分布式攻击网络;从简单的机器群控,到精心设计的真人骗佣产业链,黑产集团正在以惊人的速度迭代他们的作弊手法。这种"道高一尺,魔高一丈"的对抗态势,让传统的基于统计规则的防御体系逐渐力不从心。就像一位经验丰富的老刑警突然面对一群装备精良的高智商罪犯,旧有的破案方法开始显得捉襟见肘。


在这样的背景下,我们尝试将大模型的上下文理解能力引入行为序列分析领域。基于LLM技术,我们构建了一套全新的反作弊系统(详细细节见 AIGC风控系统:大模型重塑广告安全新范式 )。这套系统就像一位拥有超强洞察力的侦探,通过深度解析用户行为轨迹中的矛盾点,识别隐藏在正常交互模式下的异常信号


wKgZO2gu4tCAXQg9AAUP8HlYBzM403.png



图2:基于LLM的流量多阶段防御


然而,面对京东主站的巨大流量,LLM虽然具备获得优秀的生成式识别能力,却很难在当前资源和耗时要求下实现实时在线推理。为了解决这个“既要精准又要快速”的难题,我采用了蒸馏技术:让大模型担任”资深教授”,小模型作为“尖子生”,通过特征层蒸馏,将大模型的“办案经验”提炼传授给小模型,经过十余个版本的迭代打磨,最终实现了精度与速度的完美平衡。


这个过程中,我深刻体会到:真正的技术创新,不是简单粗暴地把最新技术塞进业务场景,而是要在学术前沿与工业实践之间找到那个微妙的平衡点。像一位技艺精湛的工匠,既要知道最先进的工具怎么用,更要明白什么时候该用什么样的工具。这种平衡不仅需要对技术有深刻的理解,还需要对业务有深入的洞察。

在从学术研究到工业实践的跨越中,我深刻体会到广告风控的本质是一场多维度的复杂博弈。有三点核心认知与各位分享:


1. 成本意识驱动技术选型,技术人也要会算账

在公司海量流量和实战场景中,技术人不仅要关注技术本身的先进性,还需要从数据规模、计算成本和产出价值三个维度综合评估模型的应用。数据规模决定了模型的训练深度,而计算成本则直接影响到模型的实时性。最终,产出价值体现在误判率的降低和业务损失的减少上。


技术方案不是越fancy越好,现在每次做模型选型,我都会清晰评估,每提升1%准确率需要多少标注成本?降低10ms延迟能多拦截多少欺诈订单?这种量化思维帮助我们找到技术投入的黄金平衡点。


2. 持续进化知识体系,充分熟悉业务

在阅读《Attention Is All You Need》等专业文献时,我发现了Attention机制在异常检测中的巨大潜力,并成功将其应用于自部署大语言模型的优化。这一过程中,我学会了如何从大量的研究成果中筛选出对业务有价值的洞见和创新想法。这不仅需要对技术有深刻的理解,还需要具备敏锐的技术敏感度,能够快速识别和应用前沿技术。


此外,知识体系不仅包括上述的算法前沿,也包括业务洞察力的钻研能力,只有充分熟悉业务,才能快速通过算法赋能业务,为技术的迭代和创新制定坚实的基础。


3. 跨领域思考,拥有主动破局的力量

在面对黑产日新月异的攻击时,我们必须比对手进化得更快。在处理CPS佣金欺诈的场景中,我利用博弈论模型预测黑灰产可能使用的地址暗号设计模式,并提前调整检测prompt,以此来阻止他们的欺诈行为。这种方法就像是在一场智力游戏中,通过预测对手的下一步行动,提前布局,从而保持主动。


在面对黑产带来的虚假流量时,我借鉴了复杂系统理论中的耗散结构理论,应对“作弊熵增”的问题。黑产的攻击手段越来越复杂,像是一个不断变化的系统,为了应对这种变化,我在防御系统中引入了随机性和非线性反馈机制,使得我们的防御系统能够像一个活的有机体一样,具备自适应和进化的能力。


写在最后


技术人需要构建"T型能力":既要具备垂直领域的技术深度,又要拥有横向拓展的视野广度。


这种能力结构不仅能有效应对当前的业务挑战,更能为未来的技术革新提供坚实基础。我也要求自己持续精进技术深度、敏锐培养商业敏感度、始终坚守人文关怀。不断探索大模型的技术潜力,深入理解业务的核心诉求,同时确保技术应用始终符合伦理规范和用户利益。


技术人的浪漫,或许就在于这种永不停歇的攻防之舞。每当看到凌晨的A/B test中降低的后链路作弊率,看板中实现的业务目标,上线带来的一次次可观价值,都是数字时代风控守护者的微小确幸。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4800

    浏览量

    98505
  • 京东云
    +关注

    关注

    0

    文章

    211

    浏览量

    270
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    库存周转率提升25%,净利润增长32%,一位零售店主的数字化转型之路

    在深圳个充满生活气息的社区里,连锁零售店老板阿琳正通过电脑屏幕上的数据驾驶舱,轻松调取着门店的实时经营分析。“以前选品靠直觉,客服响应慢,现在AI帮我做了大部分决策。”她演示华为云Flexus
    的头像 发表于 12-25 17:21 670次阅读
    库存周转率提升25%,净利润增长32%,<b class='flag-5'>一位</b><b class='flag-5'>零售</b>店主的数字化转型之路

    SAW 滤波器原理到测量:套可复用的实验室实战流程

    实战测量流程。测试治具、矢网校准到 S 参数与群时延的判读,给出套可复用、可重复的 SAW 滤波器实验室测量方法,帮助工程师把 dat
    的头像 发表于 11-20 14:32 4304次阅读
    SAW 滤波器<b class='flag-5'>从</b>原理到测量:<b class='flag-5'>一</b>套可复用的<b class='flag-5'>实验室</b><b class='flag-5'>实战</b>流程

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。之江实验室
    的头像 发表于 10-23 10:50 1528次阅读

    理想汽车首个海外零售中心正式开业

    经销商模式。今年11月,理想汽车在哈萨克斯坦第大城市阿拉木图和首都阿斯塔纳的零售中心也将陆续开业。理想汽车将为通过授权零售中心购车的海外用户提供官方质保,以及专业的检查维修、高效的原厂备件配送、技术支持、OTA升级等官方服务。
    的头像 发表于 10-14 16:25 981次阅读

    安卓工控体机在智慧新零售市场领域的应用分析

    在智慧零售市场规模突破2000亿的赛道上,安卓工控体机正以 “隐形中枢” 的角色,重塑无人零售的运营逻辑与消费体验。
    的头像 发表于 09-22 11:28 877次阅读
    安卓工控<b class='flag-5'>一</b>体机在智慧新<b class='flag-5'>零售</b>市场领域的应用分析

    无人RFID自动收银机配套的智慧新零售解决方案

    在数字经济与消费升级的浪潮下,传统零售正经历“人找货”到“货找人”的范式革命。无人RFID自动收银机配套的智慧新零售解决方案,凭借“精准识别+无感支付+数据闭环”的核心优势,已在政务大厅、购物中心
    的头像 发表于 09-02 16:42 1179次阅读
    无人RFID自动收银机配套的智慧新<b class='flag-5'>零售</b>解决方案

    零售行业出海数据回流,如何选择SDWAN

    >全球零售网络的扩张正面临关键转折点:**数据回流的效率与安全**,已成为出海企业增长的核心瓶颈,而SD-WAN技术正通过智能化的网络重构,成为破局的关键利器。随着零售企业加速全球化布局
    的头像 发表于 08-21 14:09 1638次阅读
    <b class='flag-5'>零售</b>行业出海数据回流,如何选择SDWAN

    电子发烧友工程师看!电子领域评职称,技术之路更扎实

    。比如一位电源工程师,评职称前主要做基础电源调试;评上 “高级电源工程师” 后,受邀参与电子发烧友 “电源技术研讨会” 做分享,还接到厂商委托的高功率密度电源开发项目,项目成果被平台推荐为 “年度技术
    发表于 08-20 13:53

    作为名PCB质检工程师,我为什么在用手持式面铜测试仪?

    在PCB行业,铜厚直是决定阻抗、散热与可靠性的关键指标。过去,工程师把板子搬到实验室、等待台式铜厚仪出结果;作为名PCB质检工程师,如今
    发表于 08-11 11:59

    京东零售在智能供应链领域的前沿探索与技术实践

    近日,“智汇运河 智算未来”2025人工智能创新创业大会在杭州召开。香港工程科学院院士、香港大学副校长、研究生院院长、讲座教授、京东零售供应链首席科学家申作军教授与供应链算法团队技术总
    的头像 发表于 08-04 16:10 1176次阅读
    <b class='flag-5'>京东</b><b class='flag-5'>零售</b>在智能供应链领域的前沿探索与技术实践

    【免费送书】电源工程师的实用手册:开关电源控制环路设计实战秘籍

    开关电源控制环路设计:ChristopheBasso的实战秘籍开关电源(开关变换器)的环路稳定性设计是每一位电源工程师在研发过程中必须面对的挑战。目前市面上大多数开关电源设计参考书都会涉及环路
    的头像 发表于 07-01 08:07 1561次阅读
    【免费送书】电源<b class='flag-5'>工程师</b>的实用手册:开关电源控制环路设计<b class='flag-5'>实战</b>秘籍

    重构零售数智化:Splashtop 8大核心场景应用实践

    当下,零售业正加速拥抱智慧化转型。面对门店设备管理分散、IT运维成本高企、跨区域协同效率低下、数据安全风险攀升等诸多挑战,零售企业急需通过技术创新实现设备高效管理、降低运维成本、保障业务连续性。
    的头像 发表于 06-23 17:36 1040次阅读
    重构<b class='flag-5'>零售</b>数智化:Splashtop 8大核心场景应用实践

    问题管理到智慧实验室的蝶变之路

    北汇信息PAVELINK平台通过五次重大迭代(问题管理系统→数字化测试平台→自动化测试平台→实验室管理平台→智慧实验室),逐步实现测试全生命周期覆盖,融合自动化调度、智能预警及多区域协同能力,呼应了
    的头像 发表于 05-21 11:05 1696次阅读
    <b class='flag-5'>从</b>问题管理到智慧<b class='flag-5'>实验室</b>的蝶变之路

    吉方工控携手英特尔推动零售行业高质量发展

    第二十五届中国零售业博览会同期举办的英特尔“芯到质,AI重塑新零售”创新论坛上,英特尔中国网络与边缘技术产品总监王景佳和中国连锁经营协会(CCFA)副秘书长杨雯发表致辞,英特尔零售
    的头像 发表于 05-12 14:24 994次阅读

    微软邀您相约2025全零售AI火花大会

    零售业AI转型已进入深水区,碎片化尝试难破困局。5月8日至9日,由中国连锁经营协会主办的“全零售AI火花大会”将在深圳召开。微软携手中国移动、海尔、玛氏、嘉士伯等零售领军企业,多角度输出AI转型落地方法论邀你
    的头像 发表于 04-28 11:19 1244次阅读