深度学习开发者Artem Oppermann介绍了受限玻尔兹曼机的原理-电子发烧友网

编者按：物理学硕士、深度学习开发者Artem Oppermann介绍了受限玻尔兹曼机的原理。近几年来，随着受限玻尔兹曼机在协同过滤上的大放异彩，这一基于能量的神经网络很受欢迎。

0. 导言

受限玻尔兹曼机（RBM）是一种属于能量模型的神经网络。本文的读者对受限玻尔兹曼机可能不像前馈神经网络或卷积神经网络那样熟悉。然而，随着RBM在Netflix Prize（知名的协同过滤算法挑战）上大放异彩（当前最先进的表现，击败了大多数竞争者），最近几年这类神经网络很受欢迎。

1. 受限玻尔兹曼机

1.1 架构

在我看来，RBM是所有神经网络中最简单的架构之一。如下图所示，一个受限玻尔兹曼机包含一个输入层（v1, ..., v6），一个隐藏层（h1, h2），以及相应的偏置向量a、b. 显然，RBM没有输出层。不过之后我们会看到，RBM不需要输出层，因为RBM进行预测的方式和通常的前馈神经网络不同。

1.2 能量模型

乍看起来，能量这一术语和深度学习没什么关系。相反，能量是一个物理概念，例如，重力势能描述了具有质量的物体因重力而具有的相对其他质量体的潜在能量。不过，有些深度学习架构使用能量来衡量模型的质量。

深度学习模型的目的之一是编码变量间的依赖关系。给变量的每种配置分配一个标量作为能量，可以描述这一依赖关系。能量较高意味着变量配置的兼容性不好。能量模型总是尝试最小化一个预先定义的能量函数。

RBM的能量函数定义为：

由定义可知，能量函数的值取决于变量/输入状态、隐藏状态、权重和偏置的配置。RBM的训练包括为给定的输入值寻找使能量达到最小值的参数。

1.3 概率模型

受限玻尔兹曼机是一个概率模型。这一模型并不分配离散值，而是分配概率。在每一时刻RBM位于一个特定的状态。该状态指输入层v和隐藏层h的神经元值。观察到v和h的特定状态的概率由以下联合分布给出：

这里Z被称为配分函数（partition function），该函数累加所有输入向量和隐藏向量的可能组合。

这是受限玻尔兹曼机和物理学第二个相遇的地方。在物理学中，这一联合分布称为玻尔兹曼分布，它给出一个微粒能够在能量E的状态下被观测到的概率。就像在物理中一样，我们分配一个观测到状态v和h的概率，这一概率取决于整个模型的能量。不幸的是，由于配分函数Z中v和h所有可能的组合数目十分巨大，计算这一联合分布十分困难。而给定状态v计算状态h的条件概率，以及给定状态h计算状态v的条件概率则要容易得多：

RBM中的每个神经元只可能是二元状态0或1中的一种。我们最关心的因子是隐藏层或输入层地神经元位于状态1（激活）的概率。给定一个输入向量v，单个隐藏神经元j激活的概率为：

其中，σ为sigmoid函数。以上等式可由对之前的条件概率等式应用贝叶斯定理推导得出，这里不详细介绍其中的推导过程。

类似地，单个输入神经元i为1的概率为：

2. 基于受限玻尔兹曼机实现协同过滤

2.1 识别数据中的潜在因子

让我们假定，我们找了一些人，让他们给一批电影打分（一星到五星）。在经典因子分析背景下，每部电影可以通过一组潜在因子来解释。例如，《哈利波特》和《速度与激情》可能分别与奇幻、动作这两个潜在因子有密切的关系。另一方面，喜欢《玩具总动员》和《机器人总动员》的用户可能和皮克斯这个潜在因子密切相关。RBM可以用来分析和找出这些潜在因子。经过一些epoch的训练，神经网络多次见到数据集中的每个用户的所有评分。此时模型应该已经基于用户的偏好和所有用户的协同口味学习到了隐藏的潜在因子。

隐藏因子分析以二元的方式进行。用户并不向模型提交具体的评分（例如，一到五星），而是简单地告知喜欢（评分为1）还是不喜欢（评分为0）某部特定的电影。二元评分值表示输入层的输入。给定这些输入，RBM接着尝试找出数据中可以解释电影选择的潜在因子。每个隐藏神经元表示一个潜在因子。给定一个包含数以千计的电影的大规模数据集，我们相当确定用户仅仅观看和评价了其中一小部分电影。另外，有必要给尚未评分的电影分配一个值，例如，-1.0，这样在训练阶段网络可以识别未评分的电影，并忽略相应的权重。

让我们看一个例子。一个用户喜欢《指环王》和《哈利波特》，但不喜欢《黑客帝国》、《搏击俱乐部》、《泰坦尼克》。用户还没有看过《霍比特人》，所以相应的评分为-1. 给定这些输入，玻尔兹曼机可能识别出三个对应电影类型的隐藏因子戏剧、奇幻、科幻。