0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘与机器学习项目特征工程实战

lviY_AI_shequ 来源:未知 作者:胡薇 2018-08-09 10:09 次阅读

找特征这件事,Andrew Ng在深度学习网课中提到过,原课件见第3课结构化机器学习项目中的2.9和2.10两节,笔记整理如下:

Andrew以Speech Recognition的场景为例,比较了pipeline和end-to-end两种建模方式中特征工程的差异。

其中pipeline的搭建依赖于人工设计的特征,需要依赖于人类可以理解的音节,将一段音频转化为文字;而end-to-end模型基于大量的音频素材,自动找出语音和文字间的关系,不依赖于音节而自动翻译成文字。

总而言之,除去语音和图像等特定场景,对于大部分生活中的机器学习项目,由于没有足够的训练数据支撑,我们还无法完全信任算法自动生成的特征,因而基于人工经验的特征工程依然是目前的主流。

人工经验这件事比较虚,加之许多业界的项目由于隐私性的考虑,很少会透露底层的入模特征和计算逻辑,使得目前网络上关于特征工程细节的文章少之又少。答主在这里结合自己这几年在金融领域的建模经验,介绍一些常见的数据源类型和特征计算方法,希望可以帮助刚入行或者想入行的从业者们开开脑洞。

(1)支付流水:通常包括支付账户、时间、金额、地点、目的、状态等字段,可以反映出客户的经济实力和消费习惯。其中特别的,账户间的复杂交易关系和异常金额时间地点的支付行为,都可以在反欺诈场景中应用,视为团伙作案或者反洗钱的重要指标。

(2)财富管理:基金理财类产品的申购历史记录,体现出客户的资金储备和购买偏好。对于风险偏好较低的客户,我们可以推荐小金库这类收益稳定、波动较小的债券类产品;对于追求高收益的客户,我们可以推荐在京东金融app上代销的各类基金,以及智能投顾产品。

(3)贷款信息:伴随着近几年国内现金贷以及场景贷市场的迅速发展,国家也在大力推动各家资方信贷数据的治理与共享。基于一个客户在各个平台上的贷款申请、提现、还款信息,可以刻画出这个客户的还款意愿和征信表现,从而为其下一次的信贷申请决策提供建议。常见的,多个平台申请和在贷以及当前有贷款发生90天以上逾期的用户,都会被其他平台列入自动拒绝的名单。

(4)App登录:从SDK埋点获取的各类app登录数据中,我们可以分析出用户在每个app上的停留时间,从而侧面了解这个用户的兴趣爱好,甚至预测用户的年龄和性别。例如京东、阿里等电商app登录较频繁的用户,通常以女性居多,并且消费能力较强;而抖音、快手等小视频app停留时间较长的,一般为年轻人群体。

(5)电商流水:从电商公司丰富的订单流水数据中,可以挖掘出较为完整的客户画像。客户Alice近一年内购买频繁,但是平均单笔订单金额较低,通常集中在生活用品以及水果生鲜,可以推断出Alice应该是一位家庭妇女;而客户Ben消费总金额较高,购买过车饰类产品,收货地址集中在办公场所,则大概率Ben是有车一族的白领青年。

(6)收货地址:在信贷风控场景中,通常近一年内地址数量较少、地址稳定性高的用户,贷款逾期风险更低;而对于地址变动频繁或者涉黑的用户,建议贷前申请直接拒绝,或者把这些收货地址运用到贷后催收之中。

(7)运营商信息:数据市场上比较常见的第三方数据源,可以用作各个场景下的身份证、姓名、手机号的三要素核验,以及利用在网时长和在网状态判断一个用户是否有欺诈风险。

除去上面整理的简单底层特征,在实际工作中数据分析师和算法工程师们还需要针对不同的业务场景,利用规则和模型构造一些复杂特征。

举两个实际的例子:

第一个例子,为了计算用户的年收入,可以利用近一年内支付总金额+理财总余额-信贷总负债的大公式,通过线性回归拟合出三个指标的系数,来得到每个用户预测的收入水平;

第二个例子,给自己在做的模型打个小广告,京东金融金融科技业务部基于京东集团商城、金融和物流三大自有数据源以及海量外部数据源,利用XGBoost、LightGBM、CatBoost等复杂集成树类算法,计算得到玉衡分特征,用来衡量京东客户在现金贷场景的信用等级,帮助服务的银行和小贷公司搭建信贷智能决策系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8112

    浏览量

    130543

原文标题:在机器学习的项目中,特征是如何被找出来的

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    数据预处理和特征工程的常用功能

    机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
    的头像 发表于 01-25 11:26 274次阅读

    什么是特征工程机器学习特征工程详解解读

    One-hot 编码对于用机器学习模型能够理解的简单数字数据替换分类数据很有用。
    发表于 12-28 17:14 169次阅读
    什么是<b class='flag-5'>特征</b><b class='flag-5'>工程</b>?<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的<b class='flag-5'>特征</b><b class='flag-5'>工程</b>详解解读

    机器学习的基本流程和十大算法

    为了进行机器学习数据挖掘任务,数据科学家们提出了各种模型,在众多的数据
    发表于 10-31 11:30 630次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的基本流程和十大算法

    机器学习数据挖掘方法和应用

    机器学习数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步
    的头像 发表于 08-24 09:20 1144次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>为什么需要<b class='flag-5'>数据</b>预处理

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1388次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    的技术。在这个过程中,计算机通过不断地迭代和学习,提高算法的准确性和可靠性,从而可以更好地解决各种实际问题。 机器学习属于计算机科学领域的一种技术,并在人工智能领域中具有重要的地位。它是数据
    的头像 发表于 08-17 16:30 1270次阅读

    机器学习数据挖掘的区别 机器学习数据挖掘的关系

    机器学习数据挖掘的区别 , 机器学习数据
    的头像 发表于 08-17 16:30 1518次阅读

    数据挖掘机器学习专业就业方向

    数据挖掘机器学习专业就业方向 随着信息技术的不断发展以及互联网的普及,我们现在生活在一个大数据时代中。大量的
    的头像 发表于 08-17 16:29 1208次阅读

    数据挖掘机器学习之间的关系

    数据挖掘机器学习之间的关系 数据挖掘机器
    的头像 发表于 08-17 16:29 2309次阅读

    数据挖掘机器学习有什么关系

    数据挖掘机器学习有什么关系 数据挖掘机器
    的头像 发表于 08-17 16:29 2064次阅读

    python数据挖掘机器学习

    python数据挖掘机器学习 Python是一个非常流行的编程语言,被广泛用于数据挖掘
    的头像 发表于 08-17 16:29 881次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    机器学习算法总结 机器学习算法是什么?机器学习算法优缺点?
    的头像 发表于 08-17 16:11 1058次阅读

    机器学习数据挖掘的对比与区别

    机器学习数据挖掘的对比与区别  机器学习数据
    的头像 发表于 08-17 16:11 1152次阅读

    机器学习的经典算法与应用

      一、机器学习基础概念   关于数据   机器学习就是喂入算法和数据,让算法从
    的头像 发表于 05-28 11:29 736次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用