0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全面介绍因果推断方向的基础方法

深度学习自然语言处理 来源:机器学习算法与自然语言 作者:陈歪歪 2021-05-26 09:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

写在前面

这一部分主要介绍的是因果推断方向的基础方法,后面会对这个方向前沿的论文和方向做一些基础介绍,这些论文和方法有些我进行了精读或者实现。

有些只是粗略地了解了大概的主旨,但是会力求讲解得尽量清楚明白,这里的介绍不分先后,只是对不同方法进行介绍,不同领域在早期和近期都有相关新论文出现,有任何问题和建议欢迎评论和私聊。

meta learning

这个方向使用基础的机器学习方法去首先Estimate the conditional mean outcome E[Y|X = x](CATE),然后 Derive the CATE estimator based on the difference of results obtained from step 1,我们常见的uplift model里面one model和two model方法其实也是属于meta learning,在这个领域one model方法是所谓的S-learner,two model方法是所谓的T-learner

T-learner & S-learner

da194014-bd58-11eb-9e57-12bb97331649.png

这里不多赘述这两种方法,简单来讲,T-learner就是用分别的两个base learner去模拟干预组的outcome和非干预组的outcome,优点在于能够很好地区分干预组和非干预组,缺点则在于容易出现两个模型的Bias方向不一致,形成误差累积。

使用时需要针对两个模型打分分布做一定校准,S-learner是将treatment作为特征,干预组和非干预组一起训练,解决了bias不一致的问题,但是如果本身X的high dimension可能会导致treatment丢失效果。而且这两种方法更偏向于naive的方法,很多其他的问题比如干预组和非干预组样本不均衡的问题、selection bias的问题都未解决。

2. X-learner

在这两种方法的基础之上还有《Metalearners for estimating heterogeneous treatment effects using machine learning pnas.org/content/116/10》这篇论文中介绍的X-learner

首先跟T-learner一样,用base learner去预估干预组和非干预组的response

da48601a-bd58-11eb-9e57-12bb97331649.png

然后定义

da96615c-bd58-11eb-9e57-12bb97331649.jpg

这里D的定义为response的预估值和实际值的差值,然后我们用一个estimator去预估这里的D,最终我们的CATE就是这两个预估出来的τ的加权和。

dad604d8-bd58-11eb-9e57-12bb97331649.png

论文中用图来解释了这么做的原因,如下:

dae4b3f2-bd58-11eb-9e57-12bb97331649.jpg

如上图所示,如果我们的干预组和非干预组样本数量不均衡,如图A的蓝色,那么在预估蓝色的base learner时会出现无法拟合到中间上凸部分的情况,最终得到的treatment effect就是在中间部分下凸的结果。

但是如果我们使用了imputed treatment effect,会得到C中虚线的均衡结果。

论文中还提到了自己的实验,实验效果总结来看,如果treat和不treat的数据量差别比较大的时候,X learner效果特别好,但是如果CATE接近0的时候,X learner效果不如S learner,比T learner好,make sense的。

3. 总结性论文

meta learning的方法有非常多,这里只是提到较为经典的三种,其他meta learning的方法比如R-learner有点老了,这里不再介绍,在《Transfer Learning for Estimating Causal Effects using Neural Networks arxiv.org/abs/1808.0780》中比较有意思的是提到了很多方法的方案。

包括传统艺能S-learner,T-learner,X-learner和比如warm start T-learner、joint training等等,有兴趣可以看看。

representation learning

表示学习对于因果推断其实算是非常自然的想法,本身由于selection bias的存在,导致treament group和control group的人群自带偏差,而类似S-learner的方法又会使得treat的作用丢失,那么将人群embedding中并尽可能消除bias和保存treat的作用就非常重要了。

BNN & BLR

比较经典的论文有BNN、BLR《Learning Representations for Counterfactual Inference arxiv.org/abs/1605.0366》,整体的算法如图:

db1325e8-bd58-11eb-9e57-12bb97331649.jpg

其中B指的是loss:

db615a24-bd58-11eb-9e57-12bb97331649.png

loss包含了三部分:事实数据的误差+和与i最近的j的反事实数据的误差和事实数据+反事实数据的分布差异,那我们是怎么学习φ的呢?

一个方法是对于特征进行选择BLR,在embedding层只有一层,更加白盒,相当于特征筛选,只保留在treatment group和control group差距较小的特征。

db9877e8-bd58-11eb-9e57-12bb97331649.jpg

另一个方法是深度的方法BNN,embedding后整体的loss加入分布的差异。

dba8cb66-bd58-11eb-9e57-12bb97331649.png

2. TARNet

与这篇论文很相似的论文包括TARNet《Estimating individual treatment effect:generalization bounds and algorithms arxiv.org/abs/1606.0397》,这篇文章整体的思路跟BNN那篇有点像,说到了BNN那篇的问题。

这里面讲了BLR的两个缺点,首先它需要一个两步的优化(优化φ和优化y),其次如果如果φ的维度很高的话,t的重要性会被忽略掉,挺有道理的,但感觉跟那篇唯一的区别就是解决了一下treat和control组的sample数量不均衡的问题,所以火速看了一下就过了

loss的计算为:

dbcf74e6-bd58-11eb-9e57-12bb97331649.jpg

可以看出是在上篇论文的基础上增加了ω的加权,去除了样本不均衡的问题。整体的算法步骤如下:

dbfef6da-bd58-11eb-9e57-12bb97331649.jpg

把两步走的优化变为了同时优化,虽然优化看起来比较微小,但如果大家实际跑一下IHDP数据集的话会发现提升还是挺明显的。

3. CFR

还有一篇论文是在TARNet之上进行优化的,《Counter Factual Regression with Importance Sampling Weights https://www.ijcai.org/Proceedings/2019/0815.pdf》而本文的改进点也在ω上,不除以p(t),而是用一个网络学习了p(t|x),除以p(t|x)

dc1386f4-bd58-11eb-9e57-12bb97331649.png

作者将其简化为

dc25abcc-bd58-11eb-9e57-12bb97331649.png

可以用任何的网络去拟合第二项,整体的过程为:

dc90d226-bd58-11eb-9e57-12bb97331649.jpg

4. ACE

还有一篇论文讲到了另一个角度《Adaptively Similarity-preserved Representation Learning for Individual Treatment Effect Estimation cs.virginia.edu/~mh6ck/》

这篇主要的思想希望在representation之后能够尽可能地保留local similarity,用一个toy example来说如下:

dca417b4-bd58-11eb-9e57-12bb97331649.jpg

整体的框架如图:fprop(x)是提前训练好的倾向性得分function

dcb13f0c-bd58-11eb-9e57-12bb97331649.png

整体希望representation之前用x计算出倾向性得分相近的两个个体,representation之后,representation之间的距离还是相近,把最重要的部分贴下来如下:

dd13e58a-bd58-11eb-9e57-12bb97331649.jpg

其中Q是Ri和Rj的联合概率(R是representation),P是xi和xj的联合概率,similarity preserving loss就是Q和P的KL散度,其中S的函数如下:

dd659c04-bd58-11eb-9e57-12bb97331649.png

整体的loss包括正常的imbalance loss:

dd710396-bd58-11eb-9e57-12bb97331649.png

Factual y的分类或者回归loss:

dd7bd2d0-bd58-11eb-9e57-12bb97331649.png

还有similarity preserving loss,总的loss function就是:

dd9033e2-bd58-11eb-9e57-12bb97331649.png

5. SITE

还有一篇比较类似思想的论文是SITE《Representation Learning for Treatment Effect Estimation from Observational Data papers.nips.cc/paper/75》但这篇论文我没有非常认真地读,来自NIPS,也是非常经典的一篇,说的主要是普通的representation learning的方法考虑了全局的分布信息。

但是没有考虑用户间的局部相似性,然后KNN的方法考虑了局部相似性,但是忽略了全局信息,这里面用了三元triplet pairs的方法选择三个对,用的是倾向性得分,倾向性得分在中间的一对,倾向性得分接近1的treat unit,倾向性得分接近0的control group,有兴趣的同学可以自己看一下。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137226
  • BNN
    BNN
    +关注

    关注

    0

    文章

    3

    浏览量

    2823
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    压敏电阻好坏判断方法

    压敏电阻作为电子电路中常用的过压保护元件,其性能好坏直接关系到设备的安全运行。本文将详细介绍压敏电阻的工作原理、常见故障表现、多种检测方法以及使用注意事项,帮助读者全面掌握判断压敏电阻好坏的实用技巧。
    的头像 发表于 03-13 17:00 828次阅读
    压敏电阻好坏判断<b class='flag-5'>方法</b>

    OPi 6Plus全面适配OpenClaw

    引爆AI智能体时代!OPi 6Plus全面适配OpenClaw 你的AI助手,昨天还在帮你查资料,今天已经能自己写代码、回邮件,甚至计划“赚钱”给自己升级装备了——这不是科幻,而是OpenClaw
    发表于 02-06 20:00

    [企业新闻]坚定方向 持续改进

    - 记见合八方管理数字化系统成功上线 近日,见合八方的生产管理与市场管理数字化系统成功上线实施。这不仅是公司本年度全面管理提升工作的重要阶段性成果,更是对年初确立的 “坚定方向,持续改进” 发展理念
    的头像 发表于 11-28 16:09 326次阅读

    全网最全面介绍拼多多API接口指南

    ​  在电商领域,拼多多作为领先的平台,提供了丰富的API接口,帮助开发者实现商品管理、订单处理、用户交互等功能。本文将从零开始,全面介绍拼多多API的使用方法、核心接口、调用示例和注意事项,确保您
    的头像 发表于 10-29 16:07 1272次阅读
    全网最<b class='flag-5'>全面</b><b class='flag-5'>介绍</b>拼多多API接口指南

    全网最全面介绍1688API接口指南

    ​ 1688是阿里巴巴集团旗下的B2B批发平台,为企业和个人提供海量商品资源。其API接口允许开发者将1688的功能集成到自有系统中,实现自动化商品搜索、订单管理、数据同步等。本指南将全面介绍
    的头像 发表于 10-29 15:22 1306次阅读
    全网最<b class='flag-5'>全面</b><b class='flag-5'>介绍</b>1688API接口指南

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法和思路。第四章是全面
    发表于 09-05 15:10

    ANSA中CFD网格细化方法

    在上一篇文章中介绍了CFD网格细化方法之Size Field功能,在本篇文章中我们将继续介绍其他CFD网格细化方法
    的头像 发表于 08-06 15:07 4450次阅读
    ANSA中CFD网格细化<b class='flag-5'>方法</b>

    基于LabVIEW的鼠标滑动方向检测教程

    本篇教程源于一位客户的真实需求,需要LabVIEW能够检测到鼠标滑动的方向,然后通过判断滑动方向处理后续的功能。
    的头像 发表于 07-30 13:51 1017次阅读
    基于LabVIEW的鼠标滑动<b class='flag-5'>方向</b>检测教程

    AI智能体的技术应用与未来图景

    深度学习与逻辑推理,实现复杂情境的语义解析与因果推断;行动层依托强化学习框架驱动自主决策链,形成感知-决策-执行的闭环能力。这种架构演进使智能体具备了环境动态响应、多目标优化决策和自主行为进化三位一体的核心能力
    的头像 发表于 07-24 11:04 1122次阅读

    无速度传感器感应电机控制系统转速辨识方法研究

    摘 要:无速度传感器感应电机控制技术已成为近年的研究热点,转逸估计是无速度传感器感应电机控制技术的核心问题。在此对无速度传感器感应电机转速辦识技术进行了介绍,分析了几种比较典型的转速解识方法的理论
    发表于 07-09 14:23

    请问如何优化OpenVINO™工具套件中的内存使用?

    运行OpenVINO™推断时找不到优化内存使用情况的方法
    发表于 06-25 06:56

    你知道什么是“二极管发言”吗?

    “二极管发言”是一个网络流行语,用来形容一种非常极端、非黑即白、缺乏辩证思维的言论和思维方式。 这个比喻来源于电子元件中的 二极管 : 单向导电性: 二极管只允许电流从一个方向通过,从另一个方向
    发表于 06-11 09:47

    数字IC设计:方法、技巧与实践

    设计的流程逐步介绍前端设计需要的知识。其中第3章为构架设计,比较详尽地介绍了构架设计的任务,一些应当考虑的问题和构架设计的方法。第4章是RTL设计与仿真。首先介绍的是一些RTL的设计规
    发表于 05-28 16:06

    推断补贴率超700%!美国欲制裁中国电池材料公司

    反补贴调查” 裁定公告中,美国宣称,两家中国企业因未充分配合调查,依据 “不利推定事实”,推断其补贴率超过 700%,而其他中国企业补贴率则为 6.55% 。 ​ 据报道,美国发起的 “对原产于中国的活性阳极材料反补贴调查” 起始于 2024
    的头像 发表于 05-25 02:01 3561次阅读
    <b class='flag-5'>推断</b>补贴率超700%!美国欲制裁中国电池材料公司

    RCD测试全解析:原理、方法、问题与发展

    本文详细介绍了剩余电流动作保护器(RCD)的概述、测试原理与标准、测试方法、常见问题与解决方案、高级测试技术、现场测试注意事项以及未来发展趋势。内容涵盖RCD的核心功能、常见类型、测试目的、国际
    的头像 发表于 05-14 14:24 5240次阅读