0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘与机器学习项目特征工程实战

lviY_AI_shequ 来源:未知 作者:胡薇 2018-08-09 10:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

找特征这件事,Andrew Ng在深度学习网课中提到过,原课件见第3课结构化机器学习项目中的2.9和2.10两节,笔记整理如下:

Andrew以Speech Recognition的场景为例,比较了pipeline和end-to-end两种建模方式中特征工程的差异。

其中pipeline的搭建依赖于人工设计的特征,需要依赖于人类可以理解的音节,将一段音频转化为文字;而end-to-end模型基于大量的音频素材,自动找出语音和文字间的关系,不依赖于音节而自动翻译成文字。

总而言之,除去语音和图像等特定场景,对于大部分生活中的机器学习项目,由于没有足够的训练数据支撑,我们还无法完全信任算法自动生成的特征,因而基于人工经验的特征工程依然是目前的主流。

人工经验这件事比较虚,加之许多业界的项目由于隐私性的考虑,很少会透露底层的入模特征和计算逻辑,使得目前网络上关于特征工程细节的文章少之又少。答主在这里结合自己这几年在金融领域的建模经验,介绍一些常见的数据源类型和特征计算方法,希望可以帮助刚入行或者想入行的从业者们开开脑洞。

(1)支付流水:通常包括支付账户、时间、金额、地点、目的、状态等字段,可以反映出客户的经济实力和消费习惯。其中特别的,账户间的复杂交易关系和异常金额时间地点的支付行为,都可以在反欺诈场景中应用,视为团伙作案或者反洗钱的重要指标。

(2)财富管理:基金理财类产品的申购历史记录,体现出客户的资金储备和购买偏好。对于风险偏好较低的客户,我们可以推荐小金库这类收益稳定、波动较小的债券类产品;对于追求高收益的客户,我们可以推荐在京东金融app上代销的各类基金,以及智能投顾产品。

(3)贷款信息:伴随着近几年国内现金贷以及场景贷市场的迅速发展,国家也在大力推动各家资方信贷数据的治理与共享。基于一个客户在各个平台上的贷款申请、提现、还款信息,可以刻画出这个客户的还款意愿和征信表现,从而为其下一次的信贷申请决策提供建议。常见的,多个平台申请和在贷以及当前有贷款发生90天以上逾期的用户,都会被其他平台列入自动拒绝的名单。

(4)App登录:从SDK埋点获取的各类app登录数据中,我们可以分析出用户在每个app上的停留时间,从而侧面了解这个用户的兴趣爱好,甚至预测用户的年龄和性别。例如京东、阿里等电商app登录较频繁的用户,通常以女性居多,并且消费能力较强;而抖音、快手等小视频app停留时间较长的,一般为年轻人群体。

(5)电商流水:从电商公司丰富的订单流水数据中,可以挖掘出较为完整的客户画像。客户Alice近一年内购买频繁,但是平均单笔订单金额较低,通常集中在生活用品以及水果生鲜,可以推断出Alice应该是一位家庭妇女;而客户Ben消费总金额较高,购买过车饰类产品,收货地址集中在办公场所,则大概率Ben是有车一族的白领青年。

(6)收货地址:在信贷风控场景中,通常近一年内地址数量较少、地址稳定性高的用户,贷款逾期风险更低;而对于地址变动频繁或者涉黑的用户,建议贷前申请直接拒绝,或者把这些收货地址运用到贷后催收之中。

(7)运营商信息:数据市场上比较常见的第三方数据源,可以用作各个场景下的身份证、姓名、手机号的三要素核验,以及利用在网时长和在网状态判断一个用户是否有欺诈风险。

除去上面整理的简单底层特征,在实际工作中数据分析师和算法工程师们还需要针对不同的业务场景,利用规则和模型构造一些复杂特征。

举两个实际的例子:

第一个例子,为了计算用户的年收入,可以利用近一年内支付总金额+理财总余额-信贷总负债的大公式,通过线性回归拟合出三个指标的系数,来得到每个用户预测的收入水平;

第二个例子,给自己在做的模型打个小广告,京东金融金融科技业务部基于京东集团商城、金融和物流三大自有数据源以及海量外部数据源,利用XGBoost、LightGBM、CatBoost等复杂集成树类算法,计算得到玉衡分特征,用来衡量京东客户在现金贷场景的信用等级,帮助服务的银行和小贷公司搭建信贷智能决策系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236

原文标题:在机器学习的项目中,特征是如何被找出来的

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    高清录屏演示 进度梯度设计:前3章(视觉篇)聚焦传统算法,第6章起逐步引入深度学习,避免知识断层 2)实战项目拆解教学 以\"双CCD光学分选案例\"为例,采用\"硬件连接
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    23.5%。本次团购旨在帮助工程师把握三大技术趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程
    发表于 12-03 13:50

    京东商品详情接口实战解析:从调用优化到商业价值挖掘(附避坑代码)

    本文深入解析京东商品详情接口jd.union.open.goods.detail.query,涵盖核心特性、权限限制、关键参数及调用避坑指南。通过实战代码演示数据采集、促销解析与商业分析,助力开发者高效获取价格、库存、评价等全维度数据
    的头像 发表于 10-10 09:28 522次阅读
    京东商品详情接口<b class='flag-5'>实战</b>解析:从调用优化到商业价值<b class='flag-5'>挖掘</b>(附避坑代码)

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监
    的头像 发表于 09-15 11:22 415次阅读
    XKCON祥控输煤皮带智能<b class='flag-5'>机器</b>人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b>分析

    项目实战】基于STM32F103的智能小车(远程控制、超声波避障、循迹、红外遥控)有教程代码

    在嵌入式开发学习中,实战项目是将理论转化为能力的最佳载体——本次【项目实战】聚焦基于STM32的智能小车,不仅整合了红外遥控、微信小程序远程
    的头像 发表于 09-08 16:06 1174次阅读
    【<b class='flag-5'>项目</b><b class='flag-5'>实战</b>】基于STM32F103的智能小车(远程控制、超声波避障、循迹、红外遥控)有教程代码

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】+基础概念学习理解

    系统的基础知识,及yocto的基础知识。这部分内容对于我这样有一定 Linux 基础的读者来说,起到了很好的复习和巩固作用,同时也为后续学习 Yocto 项目奠定了坚实的理论基础。 元数据
    发表于 08-04 22:29

    Ansible代码上线项目实战案例

    在DevOps浪潮中,自动化部署已经成为每个运维工程师的必备技能。今天我将分享一个完整的Ansible代码上线项目实战案例,让你的部署效率提升10倍!
    的头像 发表于 07-24 14:03 369次阅读

    【书籍评测活动NO.61】Yocto项目实战教程:高效定制嵌入式Linux系统

    Yocto 项目,快速掌握 Yocto 项目的基础知识与实战技巧。 本书作者 本书作者孙杰是资深嵌入式软件工程师 。长期深耕 Yocto 项目
    发表于 05-21 10:00

    学电路设计分享学习心得、技术疑问及实战成果

    活动介绍:随着物联网、智能硬件等领域的快速发展,硬件开发与电路设计技能成为电子工程师和创客的核心竞争力。为帮助刚入行的电子小白、高校大学生高效掌握从基础理论到实战应用的能力,电子发烧友平台推出学习
    的头像 发表于 05-20 08:07 439次阅读
    学电路设计分享<b class='flag-5'>学习</b>心得、技术疑问及<b class='flag-5'>实战</b>成果

    树莓派5 + Hailo AI加速器:工业级数值数据处理实战,打通SQLite与机器学习全链路

    本文讨论了在工业自动化背景下,开发者利用树莓派5和HailoAI加速器进行工业级数值数据处理实战,打通SQLite与机器学习全链路时遇到的问题及解决方案。关键要点包括:1.开发者需求:
    的头像 发表于 03-25 09:22 1002次阅读
    树莓派5 + Hailo AI加速器:工业级数值<b class='flag-5'>数据</b>处理<b class='flag-5'>实战</b>,打通SQLite与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>全链路

    《AI Agent 应用与项目实战》----- 学习如何开发视频应用

    再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发一个视频应用。AI Agent是一种智能应用,能够根据用户需求和环境变化做出相应响应。通常基于深度
    发表于 03-05 19:52

    《AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

    也好好抓住这次AI agent的广阔应用前景,努力学习,厚积薄发。 作为一名数据挖掘工程师,在研读《AI Agent 应用与项目
    发表于 02-19 16:35

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习中的作用 模型评估 :比较不同模型的性能是
    的头像 发表于 12-17 09:35 1324次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 676次阅读