0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可解释因果关系对深度学习的影响

汽车玩家 来源: AI科技大本营 作者: AI科技大本营 2020-05-04 09:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自 2012 年以来,深度学习的发展有目共睹,今年 3 月,为此做出巨大贡献的 Yoshua Bengio、Yann Lecun和Geofrey Hinton 一同获得了图灵奖。但现在,深度学习需要被进一步挖掘。

在最近一次采访中,图灵奖得主Bengio再次再次警示了可解释因果关系对深度学习发展的重要性。

在他看来,除非深度学习能够超越模式识别并了解因果关系的更多信息,否则它将无法实现其全部潜力,也不会带来真正的AI革命。换句话说,深度学习需要开始知道事情发生的因果关系,这将使现有的 AI 系统更加智能,更加高效。

不过,对于深度学习未来发展的具体思路,AI 大佬们也有不同意见,在前几日,纽约大学教授 Gary Marcus 和 Bengio 就此来了一场隔空“互怼”。

不管怎样,Bengio 在研究深度学习可解释性方面已经出发了。今年年初,他其他研究者合作发表了《通过元迁移目标来学习理解因果关系》一文,提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构,还生成了因果关系的综合数据集。

以下为这篇论文的主要内容要点,AI科技大本营(ID:rgznai100)编译:

本文提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构,这些变化因素如干预,智能体的行为和其他不稳定因素。本文表明,在这种假设下,正确的因果结构选择会使学习器更快适应修改后的分布,因为当对所学知识进行适当模块化时,分布变化仅会集中在一种或几种机制中。这导致为了适应这种变化,需要重新学习梯度和一些自由度较低的参数。并将适应修改后分布的速度作为元学习目标的激励项。

本文阐述了如何将其用于确定两个观察到的变量之间的因果关系。分布的变化不需要对应于某种标准的干预(固定变量),并且学习器不会了解这些干预相关的知识。本文证明了因果结构可以通过连续变量和端到端的学习进行参数化。然后,本文探讨了如何将这些想法用于学习一种编码器,该编码器能将初级观察变量映射到未观察到的因果变量,从而导致更快的分布适应。它学习的是一种表示空间,在这种表示空间中,可以满足独立性以及微小和稀疏变化的假设。

引言

当目前的机器学习方法需要泛化到训练分布之外的场景时,模型的能力似乎很薄弱,而这通常是非常需要的。在与训练数据相同的分布相似的测试集上获得良好的泛化性能是不够的,我们还希望在一种数据集中学到的知识能够很好的泛化到其他相关的分布中。这些分布可能涉及模型之前所见的内容,而它的一些变化则是由智能体引起的。

更笼统地说,我们希望以前学到的知识形成一个丰富的基础,从中可以非常迅速地适应新的但相关的分布,即获得良好的迁移。可能模型必须学习一些新内容,但是由于它已经掌握了大多数其他相关内容(以及它们的组成方式),因此在迁移目标分布上,可以非常快速的完成学习。

没有任何假设,就不可能成功迁移到一个无关的分布上。在本文中,我们关注于以下假设:当以适当的模块化方式表示知识时,改变是稀疏的,即只有一个或几个模块更改了。当分布变化是由于一种或多种因素的作用引起的,这尤其相关,例如因果关系文献中讨论的干预措施,其中单个因果变量被限制在特定值。

总的来说,模型很难一次影响许多潜在的因果变量,尽管本文并不是关于模型学习,但这是我们建议在此处利用的一个特性,用于帮助发现这些变量它们之间的因果关系。

为了激发推断因果结构的需求,需要考虑可以实际执行或可以想象的干预。可以想象一下,由于一项干预措施,可能会改变相关变量的联合分布,即以前从未观察到过。这超出了迁移学习的范围,因此需要因果学习和因果推理。

为此,仅学习观测变量的联合分布是不够的。人们还应该对潜在的高级变量及其因果关系有足够的了解,以能够正确推断干预的效果。例如,A =下雨,它会导致B =打开雨伞(反之亦然)。改变下雨的边缘概率(例如,因为天气变化)不会改变A和B的之间的关系(即P(B | A)),但会对边缘概率P(B)却产生了影响。相反,智能体对B(打开雨伞)的干预不会对A(下雨)的边缘分布产生影响。通常仅从(A,B)训练对中看不到这种不对称性,直到发生分布变化(例如由于干预引起的)。

这是本文的动机,在本文中,人们可以从不一定是已知的干预措施分布中学习,而不仅仅是获取一个联合分布,还可以发现一些潜在的因果结构。机器学习方法通常会利用某种形式的关于数据分布的假设。在本文中,我们不仅要考虑数据分布的假设,还要考虑其变化方式(例如,从训练分布转到迁移分布时,可能是由于某些智能体的行为造成的)。

我们建议基于这样的假设:当表示有关分布的知识时,其中的变化很小。之所以出现这种情况,是因为一个或几个基本事实机制的假设(但很难直接验证),会因为某种干预形式而改变。

我们如何利用这个假设?如果我们拥有正确的知识表示,那么从一个训练好的模型开始,我们应该能快速适应迁移的分布。之所以出现这种情况,是因为我们假设数据的生成过程是独立获得的,而且从训练分布到转移分布,几乎不需要改变真正的机制和参数。因此,捕获相应知识分解的模型仅需要进行一些更新和一些样例,即可适应迁移分布。

因此,基于正确知识表示空间的微小变化的假设,我们可以定义一个衡量适应速度的元学习目标,以便优化知识的表示,分解和结构化方式。这是本文提出的核心思想。

请注意,当存在更多的非平稳性(即分布变化很多)时,可以获得更强的信号,就像在元学习中一样,通过更多的元示例获得更好的结果。通过这种方式,我们可以将通常被认为是机器学习中令人讨厌的东西(由于非平稳性,不受控制的干预等导致的分布变化)转化为训练信号,从而找到一种将知识分解为要素和知识的好方法。

在本文中,我们将通过对合成生成的数据进行特定的实验来探索上述想法,以便对其进行验证并证明存在利用它们的简单算法。但是,对我们来说很明显,将需要更多的工作来评估提出方法的多样性。设置以及具有不同的具体参数设置,训练目标,环境等。

我们从最简单的设置开始,并评估上述方法是否可用于了解因果关系的方向。然后,我们研究获得训练信号的关键问题,该训练信号关于如何将原始观测数据转换为表示空间,在该表示空间中,潜在变量可以通过具有稀疏分布变化的稀疏因果图来建模,并显示正确的编码器确实可以更好地实现我们期望的元学习目标的价值。

何为因?何为果?

作者在本节中考虑确定变量A是否导致变量B或反之的问题。学习器(模型)会从一对相关分布中观察训练样本(a,b),按照惯例,我们将其称为训练分布和迁移分布。请注意,仅基于来自单个(训练)分布的样本,通常A→B模型(A导致B)和B→A模型(反之亦然,请参见下面的公式(1))另请参见附录A中的理论论证和模拟结果。

为了突出提出的元学习目标的功能,我们考虑了很多可用于训练分布但不能用于迁移分布的样例。实际上,正如我们将在下面讨论的那样,如果我们可以访问更多短时迁移的样例,则推断出正确因果方向的训练信号会更强烈。

可解释因果关系对深度学习的影响

学习带两个离散变量的因果关系图

我们需要比较两个假设(A→B与B→A)的性能,即两个模型在训练分布上进行训练后在迁移分布上的适应速度。我们将在此参数上假设简单的随机梯度下降,但是当然可以使用其他过程。在不失一般性的前提下,令A→B为正确的因果模型。为了使条件更强,可以考虑两个分布之间的变化等于原因A的真实P(A)值的随机变化(因为这会对效果B产生影响,并揭示因果关系方向)。我们不假定学习器(模型)知道进行了何种干预,这与更常见的因果发现和受控实验方法不同。我们仅假设发生了某些变化,然后尝试利用它来揭示结构性的因果信息。

适应迁移分布的实验

本文目前进行的实验是将正确因果模型的学习曲线与迁移模型上的因果模型的学习曲线进行了比较。对于来自不同但相关的迁移分布的数据,仅需几个梯度步骤,我们的元学习算法就可以获取至关重要的一些信息(信号)。为了展示这种适应的效果,仅使用迁移分布中的少量数据,本文对离散随机变量的模型进行了实验。如上图1。

可解释因果关系对深度学习的影响

一个简单的参数计数能有助于我们理解图1中的观察结果。首先,考虑在适应迁移分布的阶段,指定不同模块参数的预期梯度,并对应于学习的元示例。作者提出了三个见解

见解1对于在训练阶段已正确学习的模块参数,迁移分布相对于模块参数的预期梯度为零,并且具有正确的因果关系集合,对应于正确的因果图,如果(c)相应的正确条件分布没有从训练分布变为迁移分布。

可解释因果关系对深度学习的影响

可解释因果关系对深度学习的影响

见解2上述公式(2)中迁移数据的负对数似然率的梯度。其结构参数由下式给出

可解释因果关系对深度学习的影响

其中D2是迁移数据,而

是假设A->B的后验概率。此外,这可以等效地写为

可解释因果关系对深度学习的影响

其中

是迁移数据D2上两个假设对数似然之间的差异。

见解3

随机梯度下降(适当降低学习率)趋向于

可解释因果关系对深度学习的影响

作者通过附录及实验证实了上述三个见解,具体可以参见论文。

总结展望

作者使用非常简单的双变量设置,确定了学习器可以用适应观察数据分布稀疏变化的速率来选择或优化因果结构并解耦因果变量。基于这样的假设:在具有正确因果结构的情况下,这些分布变化是局部且稀疏的。本文通过理论结果和实验验证了这些想法。

这项工作只是基于修改分布速率优化因果结构的第一步。在实验方面,除了本文研究的设定外,还应考虑许多其他条件设定,包括各种参数设置,更丰富和更大的因果图,各种优化程序等。此外,由于我们在这一点上仅使用了具有单一自由度的最简单的编码器进行了实验,在探索如何学习更优的学习表达时,还需要更多的工作。扩充这些想法,便能应用于提升学习器处理非平稳性的分布,从而提高学习器的鲁棒性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296432
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123896
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 46次阅读

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 677次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 756次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3915次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    中国科学院西安光机所在计算成像可解释深度学习重建方法取得进展

    图1 MDFP-Net网络结构 近日,中国科学院西安光机所空间光学技术研究室在计算成像可解释深度学习重建方法研究取得创新性进展。相关研究成果发表于计算机视觉与图形学领域国际著名期刊
    的头像 发表于 06-09 09:27 506次阅读
    中国科学院西安光机所在计算成像<b class='flag-5'>可解释</b>性<b class='flag-5'>深度</b><b class='flag-5'>学习</b>重建方法取得进展

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据中所要表示的规律。从原理上看,使用
    的头像 发表于 04-02 18:21 1280次阅读

    在OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO™ 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    如何排除深度学习工作台上量化OpenVINO™的特定层?

    无法确定如何排除要在深度学习工作台上量化OpenVINO™特定层
    发表于 03-06 07:31

    SLAMTEC Aurora:把深度学习“卷”进机器人日常

    在人工智能和机器人技术飞速发展的今天,深度学习与SLAM(同步定位与地图构建)技术的结合,正引领着智能机器人行业迈向新的高度。最近科技圈顶流DeepSeek简直杀疯了!靠着逆天的深度学习
    的头像 发表于 02-19 15:49 722次阅读

    大模型领域常用名词解释(近100个)

    的分类进行了整理,以下供参考:模型架构与基础概念大语言模型(LLM,LargeLanguageModel):一种基于深度学习的大规模神经网络模型,通常采用Transf
    的头像 发表于 02-19 11:49 1275次阅读
    大模型领域常用名词<b class='flag-5'>解释</b>(近100个)

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文将概述
    的头像 发表于 02-14 11:15 818次阅读

    BP神经网络与深度学习关系

    BP神经网络与深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播神经网络(Backpropagation Neural N
    的头像 发表于 02-12 15:15 1338次阅读

    小白学解释性AI:从机器学习到大模型

    科学AI需要可解释性人工智能的崛起,尤其是深度学习的发展,在众多领域带来了令人瞩目的进步。然而,伴随这些进步而来的是一个关键问题——“黑箱”问题。许多人工智能模型,特别是复杂的模型,如神经网
    的头像 发表于 02-10 12:12 1148次阅读
    小白学<b class='flag-5'>解释</b>性AI:从机器<b class='flag-5'>学习</b>到大模型

    AI自动化生产:深度学习在质量控制中的应用

    随着科技的飞速发展,人工智能(AI)与深度学习技术正逐步渗透到各个行业,特别是在自动化生产中,其潜力与价值愈发凸显。深度学习软件不仅使人工和基于规则的算法难以胜任的大量生产任务得以自动
    的头像 发表于 01-17 16:35 1209次阅读
    AI自动化生产:<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在质量控制中的应用

    百度深度学习专利申请量位列全球第一

    近日,全球领先的知识产权解决方案提供商Questel,发布全球深度学习专利全景报告。
    的头像 发表于 01-15 09:29 818次阅读