0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

互联网反欺诈问题提出的必要性及重要性、通用技术手段及应用场景

芯盾时代 来源:芯盾时代 作者:芯盾时代 2020-09-25 14:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI加持下的互联网反欺诈
本文将从问题提出的必要性及重要性、通用技术手段及应用场景角度,对专家经验规则自学习机制,风评模型可解释性问题作系统全面的介绍,欢迎大家讨论交流。

01

专家经验规则自学习机制

在大数据时代背景下,金融犯罪和金融欺诈的新手段层出不穷,日渐趋于科技化、专业化、规模化,也更具有隐蔽性,由过去的单兵作战演变成有规模、有组织的团伙欺诈,严重制约了传统的专家知识库、专家经验规则持续有效地发挥作用,亟需解决两方面问题:

基于数据算法驱动,自动化调整的场景规则集中的阈值和权重,以保障规则持续有效性;

从不同维度发掘时效性强的新风控规则,以持续丰富完善反欺诈规则集。

规则阈值、权重

规则阈值、权重学习涉及特征离散化、特征选择、特征降维、权重参数回归等流程。

信息熵:用来评估样本集合的纯度的一个参数,是系统的不确定性、随机性度量指标。

卡方分箱原理:特征离散化算法,根据样本数据推断总体的分布与期望分布是否有显著性差异, 或者推断两个分类变量是否相关或者独立。

最小熵分箱:特征离散化算法,最小熵分箱是典型的自顶向下分箱方法。最小熵分箱将待分箱特征的所有取值都放到一个箱体里,然后依据最小熵原则进行箱体分裂。

基尼(gini)系数:特征离散化算法,总体内部包含越混乱,基尼系数越大;内部纯度越高,基尼系数越小。

特征选择:特征选择在于选取对训练数据具有分类能力的特征,提升模型整体预测能力,常用到技术包括lasso回归、Feature Importance、特征共线性验证等。

Lasso回归:使用少量观测值就能够完全恢复出非零的系数。其中不同的是,样本的数量需要“足够大”,否则L1模型的表现会充满随机性。

新风控规则

新欺诈规则挖掘,根据规则中所处理的值类型分为两类:

如果规则考虑的关联是项的存在与不存在,则它是布尔关联规则;

如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。

本质是频繁项集挖掘,常用到算法包括Apriori、FpGrowth。

Apriori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。

FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。

02

风评模型可解释性问题

人工智能算法模型正在对金融行业产生重大影响,前提是要了解AI算法的优势和局限性,以及适合在金融领域发挥作用的场景。当我们在金融业务中使用AI算法,期望通过可度量的方法对模型结果进行分析、解释,以期对算法进行优化,对业务进行方向性的指导,确保模型与要解决的业务问题保持一致,即模型解释性分析问题。模型的解释性分析可帮助模型开发人员及业务运营人员了解并解释模型中包含和未包含的特征因素,及特征如何影响模型结果。

广义上,模型的解释性分析目的是全局定义特征对模型的影响,同时定义单个特征对模型的个性化影响;更好的理解模型行为,更好的进行相应的业务决策;通常对机器学习模型分为“白盒”模型和“黑盒”模型:

“白盒”模型

“白盒”模型如线性、Logistic回归模型,预测能力较弱,但是简单易理解。线性关系如信贷欺诈与人口统计学特征、经济收入等的相关性。决策树模型(RandomForest vs XGBoost vs LightGBM)是目前业内公认可解释性较好的非线性机器学习算法,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据,决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用;白盒模型特征明确,逻辑简单,本身具备可解释性。

针对“白盒”模型,我们可以从数据分布图、特征重要度、Embedding可视化、独立特征分析(PDP)、全局性分析(SHAP)、局部特征信息(LIME)、特征相关性(相关系数)等维度提供分析技术。

特征重要度:从两个角度分析“特征收益重要性”和“特征分裂重要性”;特征收益重要性指特征分类的平均训练损失的减少量,意味着相应的特征对模型的相对贡献值;特征分裂重要性是指训练样本决策分裂的次数,两者从不同维度度量不同特征在模型训练中的重要性。

独立特征分析:我们通过特征重要度得知某个特征对模型的影响度,以及用SHAP来评估全局特征重要性;但如何评估某个单独的特征,尝试通过PDP来评估独立特征,展示单个特征对于模型预测的边际效益,单个特征是如何影响预测的,通过绘制特征和预测目标之间的一维关系图或二维关系图来了解特征与目标之间的关系。多个特征的复杂性,通过单个特征分析,进一步验证单个特征对模型的影响度。

“黑盒”模型

“黑盒”模型使用复杂的机器学习算法(深度网络学习)训练数据,输入特征经过组合变换,维度变换等特征工程步骤,需要分析及调整数据与模型,确保模型结果与要解决的问题保持一致;然而这些模型的内部机制难以理解,也无法估计每个特征对模型预测结果的重要性以解释模型结果与输入的特征属性潜在的关联关系,更无法直接理解不同特征之间如何相互工作(数据的相关性不等价于因果关系)。

针对“黑盒”模型,我们可以从深度网络结构分析,风评结果命中团伙关联图谱角度去解释模型有效性。

关联图谱提供丰富的图构建、图查询、图分析、图嵌入、图挖掘技术,通过社区检测、关键节点分析、关联分析、异常网络结构发现等场景化算法和模型,提供风控和营销等场景化辅助决策服务。如信用卡养卡套现识别,养卡套现团伙往往都与黑商户沟通,正常养卡阶段,消费的商户相对固定,而通过遍历关联图谱的方式,能够基于上述行为特征建立欺诈关联图谱,识别养卡套现团伙。

风控场景对于数据、模型、特征的可解释性,稳定性要求是重点,可解释性和稳定性仍然需要结合业务和专家经验进行判断。
责任编辑:xj

原文标题:AI加持下的互联网反欺诈 | 反欺诈AI全域治理三部曲(中)

文章出处:【微信公众号:芯盾时代】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11321

    浏览量

    108876
  • AI
    AI
    +关注

    关注

    90

    文章

    38190

    浏览量

    297037

原文标题:AI加持下的互联网反欺诈 | 反欺诈AI全域治理三部曲(中)

文章出处:【微信号:trusfort,微信公众号:芯盾时代】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    蓝牙网关是什么?都有哪些功能?应用场景有哪些?

    在物联网技术飞速迭代的今天,蓝牙网关作为连接海量蓝牙智能设备与互联网的关键枢纽,正凭借低功耗、高兼容、灵活部署的优势,深度渗透到工业生产、健康医疗等多个领域。它不仅解决了蓝牙设备“局域网局限”的痛
    发表于 12-11 15:21

    Lora基站在物联网应用的重要性

    对物联网设备的远程监测和控制,提供可靠的网络连接和管理,保障物联网设备的数据安全。随着物联网技术的不断发展,Lora基站的作用将越来越重要,为物联网
    发表于 12-03 07:09

    RDMA设计1:开发必要性1之设计考虑

    。 一. 选择 RDMA IP 开发必要性 为了满足大批量数据的采集、 存储与传输需求, 如机器学习、 雷达、 ⾦融⻛控、 航空航天等, 如何在 FPGA 上实现高带宽、 低延时的数据传输以
    发表于 11-19 14:30

    嵌入式软件测试与专业测试工具的必要性深度解析

    系统化解决方案,其必要性体现在多个维度:满足行业合规要求汽车电子ISO 26262、航空DO-178C等标准强制要求代码覆盖率指标达到C1(分支覆盖)≥100%、MC/DC(修正条件判定覆盖)≥100
    发表于 09-28 17:42

    如何确定电能质量在线监测装置的重要性等级?

     微机消谐装置 确定电能质量在线监测装置的重要性等级需从 应用场景、数据用途、业务影响、法规要求、技术指标 五个维度综合评估,核心目标是通过分级管理实现资源优化配置(如校准频率、维护优先级)。以下
    的头像 发表于 09-02 17:45 575次阅读

    电缆局部放电监测技术应用及其必要性分析

    类型的特性,实现绝缘状态的实时评估与故障预警,为电缆安全运行提供坚实保障。 电缆局部放电监测技术手段较多,使用场景覆盖范围广泛,因此在实际应用中,多会采用一种或多种技术手段,来进行相互补充,从而保障监测效果的全面
    的头像 发表于 08-22 09:16 514次阅读
    电缆局部放电监测<b class='flag-5'>技术</b>应用及其<b class='flag-5'>必要性</b>分析

    AS32S601 芯片在卫星互联网推进系统中的技术适配研究

    AS32S601芯片在卫星互联网推进系统中的技术适配。通过对芯片抗单粒子效应能力的分析、功能特性与系统需求的匹配研究,以及具体应用场景的详细探讨,揭示了AS32S601芯片在该领域的
    的头像 发表于 07-04 09:36 535次阅读

    RDMA简介1之RDMA开发必要性

    ,提供高通量、低延迟、远距离的零拷贝网络数据传输。基于融合以太网的远程直接内存访问(RoCE)提供了一种基于以太网的RDMA技术实现方法,相较于IB(InfiniBand)、互联网广域远程直接内存访问
    发表于 06-03 14:38

    在晶圆衬底上生长外延层的必要性

    本文从多个角度分析了在晶圆衬底上生长外延层的必要性
    的头像 发表于 04-17 10:06 753次阅读

    晶体管栅极多晶硅掺杂的原理和必要性

    本文介绍了多晶硅作为晶体管的栅极掺杂的原理和必要性
    的头像 发表于 04-02 09:22 2183次阅读
    晶体管栅极多晶硅掺杂的原理和<b class='flag-5'>必要性</b>

    取样示波器的技术原理和应用场景

    取样示波器,也称为采样示波器,是一种重要的电子测量仪器,其技术原理和应用场景可以归纳如下:技术原理取样示波器的根本原理是利用等效取样技术,将
    发表于 03-12 14:34

    敏捷合成器的技术原理和应用场景

    助于提高波形的纯度和稳定性。 相位噪声优化技术:通过优化合成器的内部结构和电路布局,降低相位噪声,提高信号的频谱纯度。这对于需要高精度和高稳定性的应用场景至关重要。 应用场景敏捷合成器
    发表于 02-20 15:25

    智慧园区安全调度的重要性

    规模的扩大和复杂的增加,安全问题也日益凸显。因此,智慧园区的安全调度显得尤为重要。 智慧园区安全调度的定义 智慧园区安全调度 是指通过先进的技术手段和管理方法,对园区内的各类安全风险进行实时监控、预警和应急处
    的头像 发表于 02-19 16:52 629次阅读

    工业通讯网关的使用场景重要性解读

    在当今高度自动化的智能制造工厂中,工业通讯网关扮演着至关重要的角色。让我们以一家汽车制造工厂为例,来深入了解工业通讯网关的使用场景重要性。 这家汽车制造工厂拥有先进的自动化生产线,包括机器人焊接
    的头像 发表于 02-11 15:02 551次阅读

    时域反射计的技术原理和应用场景

    时域反射计(TDR,Time Domain Reflectometer)的技术原理和应用场景可以归纳如下:技术原理时域反射计的基本原理是利用反射波来测量电路或传输线中的阻抗变化。其核心思想是在一个
    发表于 02-11 14:39