深度学习在可解释性推理方向上的进展-电子发烧友网

编者按：Jaley Dholakiya简要概述了深度学习在可解释性推理方向上的进展。

对一个使用深度学习查明患者是否患有多发性硬化的医生来说，模型仅仅给出“是”或“否”并不好。对自动驾驶这样安全攸关的应用而言，仅仅预测会发生碰撞并不够。使机器学习能够清楚地表述给出断言的依据，这是一个紧迫的需求。Devi Parikh、Druv Batra的视觉问答工作，李飞飞团队在理解视觉关系方面的工作，都属于这一方向。但这离学习推理结构还很远。这篇博客文章将讨论如何在CNN和知识图谱中纳入推理。

长期以来，推理都被理解为一组归纳和演绎。基于抽象符号逻辑方面的研究，John Venn在1881年标准化了这些概念。它像是IQ测试，由A可得B，由B可得C，故由A可得C，等等。可以把它想成一组逻辑等式。

然而，1975年L.A. Zadeh提出了近似推理（approximate reasoning）的概念，替代了固定的归纳/推理的思路。近似推理同时引入了语言变量（linguistic variable）这一术语（年龄=年轻，很年轻，相当年轻，年老，相当老，很老）。与语言变量相对的是数值变量（年龄=21，15，19，57，42，47）。语言变量是通过单词构建模糊逻辑的基础。近似推理标准化了在推理中考虑模糊性和歧义性的方法。

例如，在我们的日常语言中，我们不会说“我正和一个身高173厘米的21岁男性说话”，而是说“我正和一个高个小伙说话”。因此，模糊逻辑考虑了构建推理模型的论点的模糊性。

尽管纳入了模糊性，它仍未能捕捉到人类推理的精髓。有一种可能的解释是，除了简单的演绎（“A不是B，B是C，意味着A不是C”），人类推理具备一个压倒性的内隐推理元素。无需经过上述步骤，人类瞬间可以做出演绎。有时候这是本能。如果你养宠物狗，那么你知道从它嘴里夺走玩具会发生什么。

人类显示了一种不同寻常的能力，可以随着时间的推移而抽象、改进内隐推理。基于统计学习的语言模型正是内隐学习的一个例子。它并没有使用任何规则、命题、模糊逻辑，而是通过时间模型学习长期依赖。你可以将它想象成手机中的自动补全特性。你要么训练一个推理结构来预测最符合逻辑的词组，要么让统计学方法预测一个概率上恰当的补全词组。

这类模型无法处理罕见单词或罕见图像，这是因为罕见性导致模型遗忘了相关信息。这类模型也不能概括一个概念。而人类具有这一能力。例如，如果我们看到一种牛，那么我们能够推广所学到所有其他种类的牛上。如果我们听过某句话，那么我们能够辨认出这句话不同语调、口音、节奏的变体。

不管过去的知识有多么不相关，人类都可以加以利用。借鉴人类这一能力，单样本学习开辟了学习罕见事件的道路。如果一个人有生以来只见过方块和三角形，然后第一次看到一头鹿，这个人不会仅仅将它记忆为一张图像，而会下意识地储存它和方块、三角形的相似性。对单样本学习而言，记忆库是必不可少的。基于记忆和核心模型的交互，模型可以更高效地学习，更快地推理。

我知道你也许感到单样本这一术语很费解。所以我们将给出一个基于ImageNet进行单样本学习的简单例子。现在，让我们把ImageNet的1000个分类（猴子、人类、猫，等等）想象成真人秀的评委。每个评委根据选手是一只猴子、一个人等的可能性给出评分。

让我们假设有一个模型没有训练过的第1001分类。如果我从这个分类中取两个样本，没有一个评委能够给出自信的评分，但如果我们查看这1000个评委给这两个样本的评分，那么我们有可能从中找出相似性。例如，加拉巴哥蜥蜴从鳄鱼和蜥蜴那里得到的票数可能最高，超过任何其他分类的评委。评委一定会给这两个加拉巴哥蜥蜴类似的评分，尽管加拉巴哥蜥蜴并不在分类列表中，训练数据中甚至没有一张加拉巴哥蜥蜴的图像。这种基于特征相似性的归类是单样本学习最简单的形式。

Santoro最近在记忆增强神经网络上的工作，通过可微记忆操作自动化与记忆的交互，这种做法借鉴了神经图灵机。

所以网络学习特征向量，和未见分类一起保存于可微记忆块之中。这一表示不断发展，给了神经网络学习“如何快速学习”的能力，这正是我们将其称为元学习的原因。就这样，神经网络的行为开始变得更像人类了。人类联系过去和现在的能力极强。例如，即使我没见过这一奇异的外星生物，我仍然可以说它像是一个长着牛角的狒狒或者大猩猩。

到目前为止，我们讨论的关键点是：

基于模糊逻辑的单纯的外显推理无法捕捉人类推理的精髓。

传统单样本学习这样的内隐模型，自身无法从罕见事件学习、概括。需要记忆增强。

增强记忆的结构可以是cho和sutskever所用的LSTM，也可以是santoro最近的工作中使用的动态查询表。动态查询表可以进一步加强，基于外置知识图谱，比如Bengio实验室的Sungjin提出的神经知识语言模型。

如果需要补全不完整的句子，我可以使用简单的序列到序列模型。但由于罕见命名实体的关系，序列到序列模型的表现不会很好。模型原本很少有机会听到“Crazymuse”。但是，如果我们学习从知识图谱获取命名实体，那么我们就可以使用罕见的命名实体补全句子，只要我们能够识别主题和联系，还有应该是从LSTM获取信息还是从知识图谱信息。这种组合知识图谱和神经网络的方法真的很棒。

就推理和推断而言，这带来了大量可能性，因为知识表示（主题，预测，目标）让我们可以进行更复杂的推理任务，就像结合外显模糊逻辑和内隐统计学习。

从知识图谱获取信息，加上注意力机制可能导向可解释模型。

SQUAD这样的问答数据集帮助人们在可推断语言模型上取得了显著进展。最近视觉问答方面的工作则使用Visual Genome、CLEVR、VRD这样的数据集将图像转换为本体，并学习视觉关系以改善场景理解和推断。

不过，场景理解下的问答进展仍有一些局限：

使用LSTM作为基于记忆的模型以及学习视觉关系的注意力转移无疑改善了对环境的理解和概括能力。但学习过程和改善推理的权威形式方面仍有许多需要改进的地方。

结构中拼命使用卷积神经网络，使得模型难以为人类所理解。这样的架构也许很适合基本的分类问题和领域特定的生成任务，但并不是为推理设计的。相反，如果我们能像Tom Mitchell提出的Never-Ending Learning那样，直接学习更丰富的知识图谱中的多模实体表示和本体，那么我们就可以学习跨领域推理结构，并迫使模型更好地表达其对实体关系的理解。

我梦想有那么一天，机器学习推理。到了那一天，我们可以询问机器：“你为什么觉得这个人有多发性硬化”，接着机器可以找到表述它的理据的词汇。我知道Naftali在信息瓶颈原则方面的工作和Mitchell的Never-Ending Learning，但我们缺少的是主动学习模糊逻辑提供的基本推理结构上的抽象。它可以由基于奖励的学习最佳策略驱动，也可以由基于单样本学习原则的某种验证驱动，也可以由某种基于半监督图模型的方法驱动。但是，不管驱动因子是什么，模型需要学习改善推理。模型需要学习将推理引擎和来自声音或图像的丰富特征表示联系起来，也许这甚至会促进类似策略迭代的“改善表示，改善推理，改善表示，改善推理”的循环。最重要的是，模型应该能够向人类表述其抽象，例如，“你好，人类，我觉得猫很可爱，因为它们的眼睛和婴儿的眼睛很像，充满了生机，和你单调的日常完全不同”。

直到那一天，让我们坚持训练模型，同时坚持梦想那样的模型运行的那一天。因为梦想化为现实的速度比你想象的要快！

关于作者

Jaley在YouTube上开设了Crazymuse AI频道，也在Edyoda上开设了课程。他曾在哈曼担任资深数据科学家，并对认识人类推理的结构极为好奇。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8094

浏览量
130513
深度学习

深度学习

+关注

关注
73

文章
5219

浏览量
119863

原文标题：理解人类推理的深度学习

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

机器学习模型可解释性的结果分析

模型的可解释性是机器学习领域的一个重要分支，随着 AI 应用范围的不断扩大，人们越来越不满足于模型的黑盒特性，与此同时，金融、自动驾驶等领域的法律法规也对模型的可解释性提出了更高的要求，在可解

发表于 09-28 10:17 •491次阅读

什么是“可解释的”? 可解释性AI不能解释什么

通过建立既可解释又准确的模型来改良这种错误的二分法。关键是将神经网络与决策树相结合，在使用神经网络进行低级决策时保留高级的可解释性。

发表于 05-31 10:51 •8031次阅读

斯坦福探索深度神经网络可解释性 决策树是关键

深度学习的热潮还在不断涌动，神经网络再次成为业界人士特别关注的问题，AI 的未来大有可期，而深度学习正在影响我们的日常生活。近日斯坦福大学给我们分享咯一则他对

发表于 01-10 16:06 •4093次阅读

用浅显的语言带领大家了解可解释性的概念与方法

广义上的可解释性指在我们需要了解或解决一件事情的时候，我们可以获得我们所需要的足够的可以理解的信息。

发表于 06-25 10:21 •5715次阅读

机器学习模型的“可解释性”的概念及其重要意义

如果考察某些类型的“事后可解释性”（post-hoc interpretable），深度神经网络具有明显的优势。深度神经网络能够学习丰富的表示，这些表示能够可视化、用语言表达或用于聚类

发表于 07-24 09:58 •1.9w次阅读

神经网络可解释性研究的重要性日益凸显

神经网络的可解释性，从经验主义到数学建模

发表于 06-27 10:54 •4965次阅读

深度理解神经网络黑盒子:可验证性和可解释性

虽然神经网络在近年来 AI 领域取得的成就中发挥了关键作用，但它们依旧只是有限可解释性的黑盒函数近似器。

发表于 08-15 09:17 •1.3w次阅读

Explainable AI旨在提高机器学习模型的可解释性

Google Cloud AI战略总监Tracy Frey在今天的博客中解释说，Explainable AI旨在提高机器学习模型的可解释性。她说，这项新服务的工作原理是量化每个数据因素对模型产生的结果的贡献，帮助用户了解其做出

发表于 03-24 15:14 •2673次阅读

机器学习模型可解释性的介绍

模型可解释性方面的研究，在近两年的科研会议上成为关注热点，因为大家不仅仅满足于模型的效果，更对模型效果的原因产生更多的思考，这...

发表于 12-10 20:19 •554次阅读

图神经网络的解释性综述

：https://arxiv.org/pdf/2012.15445.pdf 参考文献 0.Abstract近年来，深度学习模型的可解释性研究在图像和文本领域取得了显著进展

发表于 04-09 11:42 •2460次阅读

《计算机研究与发展》—机器学习的可解释性

机器学习的可解释性 来源：《计算机研究与发展》，作者陈珂锐等摘要近年来，机器学习发展迅速，尤其是深度学习在图像、声音、自然语言处理等领

发表于 01-25 08:35 •822次阅读

关于机器学习模型的六大可解释性技术

本文介绍目前常见的几种可以提高机器学习模型的可解释性的技术。

发表于 02-26 17:20 •1867次阅读

机器学习模型的可解释性算法详解

本文介绍目前常见的几种可以提高机器学习模型的可解释性的技术，包括它们的相对优点和缺点。

发表于 02-16 16:21 •4049次阅读

可解释机器学习

可解释机器学习

发表于 06-17 14:41 •1次下载

可以提高机器学习模型的可解释性技术

本文介绍目前常见的几种可以提高机器学习模型的可解释性的技术，包括它们的相对优点和缺点。

发表于 02-08 14:08 •911次阅读