0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘与机器学习项目特征工程实战

lviY_AI_shequ 来源:未知 作者:胡薇 2018-08-09 10:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

找特征这件事,Andrew Ng在深度学习网课中提到过,原课件见第3课结构化机器学习项目中的2.9和2.10两节,笔记整理如下:

Andrew以Speech Recognition的场景为例,比较了pipeline和end-to-end两种建模方式中特征工程的差异。

其中pipeline的搭建依赖于人工设计的特征,需要依赖于人类可以理解的音节,将一段音频转化为文字;而end-to-end模型基于大量的音频素材,自动找出语音和文字间的关系,不依赖于音节而自动翻译成文字。

总而言之,除去语音和图像等特定场景,对于大部分生活中的机器学习项目,由于没有足够的训练数据支撑,我们还无法完全信任算法自动生成的特征,因而基于人工经验的特征工程依然是目前的主流。

人工经验这件事比较虚,加之许多业界的项目由于隐私性的考虑,很少会透露底层的入模特征和计算逻辑,使得目前网络上关于特征工程细节的文章少之又少。答主在这里结合自己这几年在金融领域的建模经验,介绍一些常见的数据源类型和特征计算方法,希望可以帮助刚入行或者想入行的从业者们开开脑洞。

(1)支付流水:通常包括支付账户、时间、金额、地点、目的、状态等字段,可以反映出客户的经济实力和消费习惯。其中特别的,账户间的复杂交易关系和异常金额时间地点的支付行为,都可以在反欺诈场景中应用,视为团伙作案或者反洗钱的重要指标。

(2)财富管理:基金理财类产品的申购历史记录,体现出客户的资金储备和购买偏好。对于风险偏好较低的客户,我们可以推荐小金库这类收益稳定、波动较小的债券类产品;对于追求高收益的客户,我们可以推荐在京东金融app上代销的各类基金,以及智能投顾产品。

(3)贷款信息:伴随着近几年国内现金贷以及场景贷市场的迅速发展,国家也在大力推动各家资方信贷数据的治理与共享。基于一个客户在各个平台上的贷款申请、提现、还款信息,可以刻画出这个客户的还款意愿和征信表现,从而为其下一次的信贷申请决策提供建议。常见的,多个平台申请和在贷以及当前有贷款发生90天以上逾期的用户,都会被其他平台列入自动拒绝的名单。

(4)App登录:从SDK埋点获取的各类app登录数据中,我们可以分析出用户在每个app上的停留时间,从而侧面了解这个用户的兴趣爱好,甚至预测用户的年龄和性别。例如京东、阿里等电商app登录较频繁的用户,通常以女性居多,并且消费能力较强;而抖音、快手等小视频app停留时间较长的,一般为年轻人群体。

(5)电商流水:从电商公司丰富的订单流水数据中,可以挖掘出较为完整的客户画像。客户Alice近一年内购买频繁,但是平均单笔订单金额较低,通常集中在生活用品以及水果生鲜,可以推断出Alice应该是一位家庭妇女;而客户Ben消费总金额较高,购买过车饰类产品,收货地址集中在办公场所,则大概率Ben是有车一族的白领青年。

(6)收货地址:在信贷风控场景中,通常近一年内地址数量较少、地址稳定性高的用户,贷款逾期风险更低;而对于地址变动频繁或者涉黑的用户,建议贷前申请直接拒绝,或者把这些收货地址运用到贷后催收之中。

(7)运营商信息:数据市场上比较常见的第三方数据源,可以用作各个场景下的身份证、姓名、手机号的三要素核验,以及利用在网时长和在网状态判断一个用户是否有欺诈风险。

除去上面整理的简单底层特征,在实际工作中数据分析师和算法工程师们还需要针对不同的业务场景,利用规则和模型构造一些复杂特征。

举两个实际的例子:

第一个例子,为了计算用户的年收入,可以利用近一年内支付总金额+理财总余额-信贷总负债的大公式,通过线性回归拟合出三个指标的系数,来得到每个用户预测的收入水平;

第二个例子,给自己在做的模型打个小广告,京东金融金融科技业务部基于京东集团商城、金融和物流三大自有数据源以及海量外部数据源,利用XGBoost、LightGBM、CatBoost等复杂集成树类算法,计算得到玉衡分特征,用来衡量京东客户在现金贷场景的信用等级,帮助服务的银行和小贷公司搭建信贷智能决策系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137421

原文标题:在机器学习的项目中,特征是如何被找出来的

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 算法核心知识清单(深度实战版2)

    三、机器学习核心算法(入门到实战)​1.监督学习算法(已知标签的模型训练)​线性模型​线性回归(回归任务):​核心原理:假设y=w₀+w₁x₁+w₂x₂+...+wₙxₙ+ε(ε为误差
    的头像 发表于 04-24 11:58 268次阅读
    AI 算法核心知识清单(深度<b class='flag-5'>实战</b>版2)

    AI大模型微调企业项目实战

    低到消费级显卡可承受的范围,更将训练周期从数月压缩至几天甚至几个小时。 三、 实战演练:企业微调的“三步走”兵法 一门优秀的企业微调实战课,绝不是枯燥的理论堆砌,而是直击痛点的工程化指南。完整的微调
    发表于 04-16 18:48

    机器学习特征工程:缩放、编码、聚合、嵌入与自动化

    本文转自:DeepHubIMBA好模型的秘诀不在于更花哨的算法,而在于更好的特征。第1部分:数值特征1.1缩放多数机器学习算法对尺度敏感。一个取值范围在0到1,000,000的列,会在
    的头像 发表于 04-08 14:41 811次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:缩放、编码、聚合、嵌入与自动化

    生成式AI赋能工程挖掘非结构化数据价值

    您是否知道,生成式 AI(GenAI)可以帮助工程师在几秒钟内诊断汽车故障,甚至在设备出现问题之前预测潜在失效?GenAI 正在通过加速数据分析和算法开发,让这些场景从设想走向现实,使工程师能够充分发挥专业知识,
    的头像 发表于 02-28 10:24 681次阅读

    少走三年弯路!顶尖硬件工程师分享的“实战锦囊”!

    /测试、信号完整性、可靠性、结构设计、项目管理等多个关键领域。通过互动式、实战导向的学习模式,我们赋能工程师提升实践能力,高效解决实际工作中的技术难题,从而显著提升
    的头像 发表于 02-26 15:54 237次阅读
    少走三年弯路!顶尖硬件<b class='flag-5'>工程</b>师分享的“<b class='flag-5'>实战</b>锦囊”!

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 525次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:分类变量的数值化处理方法

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    高清录屏演示 进度梯度设计:前3章(视觉篇)聚焦传统算法,第6章起逐步引入深度学习,避免知识断层 2)实战项目拆解教学 以\"双CCD光学分选案例\"为例,采用\"硬件连接
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    高清录屏演示 进度梯度设计:前3章(视觉篇)聚焦传统算法,第6章起逐步引入深度学习,避免知识断层 2)实战项目拆解教学 以\"双CCD光学分选案例\"为例,采用\"硬件连接
    发表于 12-03 13:50

    京东商品详情接口实战解析:从调用优化到商业价值挖掘(附避坑代码)

    本文深入解析京东商品详情接口jd.union.open.goods.detail.query,涵盖核心特性、权限限制、关键参数及调用避坑指南。通过实战代码演示数据采集、促销解析与商业分析,助力开发者高效获取价格、库存、评价等全维度数据
    的头像 发表于 10-10 09:28 1142次阅读
    京东商品详情接口<b class='flag-5'>实战</b>解析:从调用优化到商业价值<b class='flag-5'>挖掘</b>(附避坑代码)

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监
    的头像 发表于 09-15 11:22 846次阅读
    XKCON祥控输煤皮带智能<b class='flag-5'>机器</b>人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b>分析

    项目实战】基于STM32F103的智能小车(远程控制、超声波避障、循迹、红外遥控)有教程代码

    在嵌入式开发学习中,实战项目是将理论转化为能力的最佳载体——本次【项目实战】聚焦基于STM32的智能小车,不仅整合了红外遥控、微信小程序远程
    的头像 发表于 09-08 16:06 1828次阅读
    【<b class='flag-5'>项目</b><b class='flag-5'>实战</b>】基于STM32F103的智能小车(远程控制、超声波避障、循迹、红外遥控)有教程代码

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题?

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题
    发表于 08-28 07:28

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】+基础概念学习理解

    系统的基础知识,及yocto的基础知识。这部分内容对于我这样有一定 Linux 基础的读者来说,起到了很好的复习和巩固作用,同时也为后续学习 Yocto 项目奠定了坚实的理论基础。 元数据
    发表于 08-04 22:29

    Ansible代码上线项目实战案例

    在DevOps浪潮中,自动化部署已经成为每个运维工程师的必备技能。今天我将分享一个完整的Ansible代码上线项目实战案例,让你的部署效率提升10倍!
    的头像 发表于 07-24 14:03 831次阅读

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    实践。 为开源项目贡献代码或者文档。比如,帮助完善一个机器学习数据集的加载模块的代码,或者撰写某个AI算法的使用说明文档。这不仅可以提升自己的技术能力,还能在AI社区中建立自己的声誉。
    发表于 07-08 17:44