采用无监督学习的方法，用深度摘要网络总结视频-电子发烧友网

随着在线视频数量的爆炸式增长，想从茫茫网络世界中找到自己想要的视频可是要费一番功夫。于是有人就想到，何不也给视频创作一份摘要呢？就像书的简介一样，观众只需要看看摘要，就了解视频的大概内容了。

这的确是个好方法，不过面对如此庞大的视频库，如何大批量处理它们呢？在此之前，许多研究者提出了不同的方法为视频大规模创建摘要，例如循环神经网络（RNN）、长短期记忆（LSTM）、双向长短期记忆网络（bidirectional LSTM）和行列式点处理（DPP）模块结合的方式等等。但都是需要监督的总结方式，其中并没有一个针对所有视频的标准答案（ground truth）。所以仍然需要无监督的摘要生成方式。

中科院和英国伦敦大学玛丽女王学院的研究人员就生成视频摘要提出了一种新方法，采用无监督学习的方法，用深度摘要网络（Deep Summarization Network，DSN）总结视频。整个过程为连续决策过程（sequential decision-making process），DSN为编码-解码结构，其中编码器是一个能够提取视频帧特征的卷积神经网络，解码器是一个双向LSTM网络，能够基于被选中的动作生成概率。在训练过程中，研究人员设计了新颖的多样性-代表性奖励（diversity-representativeness reward）函数，可以直接判断生成视频摘要的多样化和代表化。下图是该模型学习过程的图示：

采用无监督学习的方法，用深度摘要网络总结视频

深度摘要网络（DSN）

DSN的编码器是一个卷积神经网络，它从输入的长度为T的视频框架{vt}t=1T中提取视觉特征{xt}t=1T。解码器是一个双向循环神经网络（BiRNN），最上面是完全连接层。将提取的{xt}t=1T输入到解码器后，生成相应的隐藏状态{ht}t=1T。每个ht都是前隐藏状态htf和后隐藏状态htb的连接。在实践中，研究人员采用GoogLeNet当做CNN模型，并且用LSTM训练提升RNN的性能。

多样性-代表性奖励函数

在训练时，DSN会接收到一个奖励R(S)，来评估生成的摘要。而DSN的目标是不断生成高质量的视频摘要，让奖励最大化。通常，高质量的视频摘要必须既有代表性，又丰富多彩。为了达到这一目的，研究人员提出了一种新颖的奖励方式，它由多样性奖励Rdiv和代表性奖励Rrep组成。

在多样性奖励中，Rdiv可以用以下公式表示：

y表示已选中的帧，d(xt,xt')是多样化公式，如下表示：

选出的视频帧越多样（越不相像），agent收到的多样性奖励越高。

而代表性奖励函数主要是测量生成的摘要是否能总结原始视频，研究人员将其看成k中心点问题，将Rrep定义为：

在这个奖励之下，agent能够选出最接近特征空间聚类中心的帧。

最后，Rdiv和Rrep共同工作，指导DSN学习：

R(S)=Rdiv+Rrep

实验测试

该模型在SumMe和TVSum两个数据集上进行测试。SumMe有25个用户视频，涵盖了假期和运动等多种话题。其中的视频长度约为1至6分钟，都经过了15至18人进行标注，所以每段视频都有多个标准摘要（ground truth）。TVSum中有50段视频，包括新闻、纪录片等，长度2到10分钟不等，每段都有20人标注。除此之外还有另外两个数据集，OVP和YouTube，用来测试强化后的模型。

在进行比较时，研究人员分了好几种情况进行对比：只用多样性奖励函数进行训练（用D-DSN表示）、只用代表性奖励函数进行训练（用R-DSN表示）、两种函数都有的（用DR-DSN表示）。另外，还将模型扩展到监督学习的实验中，用DR-DSNsup表示。在SumMe和TVSum上不同版本的结果如下表所示：

可以看到，DR-DSN的结果明显优于D-DSN和R-DSN，同时与DSNsup相比，DR-DSN的结果也非常出色。

接着，研究人员将DR-DSN与其他无监督方法进行比较，可以看到，DR-DSN在两个数据集上比其它方法表现得都好，并且差距非常明显。如下图所示：

另外，在与其他监督式方法的比较中，DR-DSNsup也是完胜：

这些结果有力地证明了DSN框架的有效性。

质量评估

研究人员挑选了一段一个男人自制辣香肠三明治的视频作为质量评估的素材。

采用无监督学习的方法，用深度摘要网络总结视频

上图中可以看到，四种方法都生成了高质量的视频摘要，它们都均匀选取了视频的每一过程。不过最接近完整故事线的是DR-DSNsup，因为它展示了从准备食材到制作的全过程。

接着研究人员对原始预测（raw prediction）进行可视化，通过比较预测和原视频，我们可以更深入地了解DSN学习的情况。

采用无监督学习的方法，用深度摘要网络总结视频

可以看到，无监督模型预测的重要性曲线与监督模型预测的有几处相似，并且这些地方与之前人们标注认为重要的地方相吻合。这充分表明，通过多样性-代表性奖励函数训练过的强化学习能很好地模仿人类学习过程，并有效地教DSN认出视频中重要的帧。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

视频

视频

+关注

关注
6

文章
1890

浏览量
71882
DSN

DSN

+关注

关注
0

文章
8

浏览量
4457
无监督学习

无监督学习

+关注

关注
1

文章
16

浏览量
2732

原文标题：DSN：基于深度强化学习，无监督生成视频摘要

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

深非监督学习-Hierarchical clustering 层次聚类python的实现

【深度学习基础-17】非监督学习-Hierarchical clustering 层次聚类-python实现

发表于 04-28 10:07

如何用卷积神经网络方法去解决机器监督学习下面的分类问题？

人工智能下面有哪些机器学习分支？如何用卷积神经网络（CNN）方法去解决机器学习监督学习下面的分类问题？

发表于 06-16 08:09

你想要的机器学习课程笔记在这：主要讨论监督学习和无监督学习

with experience E（一个程序从经验E中学习解决任务T进行某一任务量度P，通过P测量在T的表现而提高经验E（另一种定义：机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。）不同类型的机器学习算法：主要

发表于 12-03 17:12 •420次阅读

机器学习算法中有监督和无监督学习的区别

无监督学习的好处之一是，它不需要监督学习必须经历的费力的数据标记过程。但是，要权衡的是，评估其性能的有效性也非常困难。相反，通过将监督学习算法的输出与测试数据的实际标签进行比较，可以很容易地衡量

发表于 07-07 10:18 •5373次阅读

最基础的半监督学习

导读最基础的半监督学习的概念，给大家一个感性的认识。半监督学习(SSL)是一种机器学习技术，其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是

发表于 11-02 16:08 •2382次阅读

半监督学习最基础的3个概念

导读今天给大家介绍半监督学习中的3个最基础的概念：一致性正则化，熵最小化和伪标签，并介绍了两个经典的半监督学习方法。没看一的点这里哈：半监督学习入门基础（一）半监督学习 (SSL

发表于 11-02 16:14 •2682次阅读

为什么半监督学习是机器学习的未来？

为什么半监督学习是机器学习的未来。 监督学习是人工智能领域的第一种学习类型。从它的概念开始，无数的算法，从简单的逻辑回归到大规模的神经网络，

发表于 11-27 10:42 •3648次阅读

半监督学习：比监督学习做的更好

监督学习是人工智能领域的第一种学习类型。从它的概念开始，无数的算法，从简单的逻辑回归到大规模的神经网络，都已经被研究用来提高精...

发表于 12-08 23:32 •1140次阅读

分析总结基于深度神经网络的图像语义分割方法

随着深度学习技术的快速发展及其在语义分割领域的广泛应用，语义分割效果得到显著提升。对基于深度神经网络的图像语义分割方法进行分析与

发表于 03-19 14:14 •21次下载

分析<b class='flag-5'>总结</b>基于<b class='flag-5'>深度</b>神经<b class='flag-5'>网络</b>的图像语义分割<b class='flag-5'>方法</b>

机器学习中的无监督学习应用在哪些领域

解决数据中心、云计算、人工智能和边缘计算等各个行业的问题，为人们带来极大便益。自监督学习是什么？自监督学习与监督学习和非监督学习的关系自我监督

发表于 01-20 10:52 •4597次阅读

自监督学习的一些思考

自监督学习的流行是势在必然的。在各种主流有监督学习任务都做到很成熟之后，数据成了最重要的瓶颈。从无标注数据中学习有效信息一直是...

发表于 01-26 18:50 •1次下载

融合零样本学习和小样本学习的弱监督学习方法综述

融合零样本学习和小样本学习的弱监督学习方法综述来源：《系统工程与电子技术》，作者潘崇煜等摘要: 深度学习模型严重依赖于大量人工标注的数

发表于 02-09 11:22 •1800次阅读

半监督学习代码库存在的问题与挑战

当使用监督学习(Supervised Learning)对大量高质量的标记数据(Labeled Data)进行训练时，神经网络模型会产生有竞争力的结果。例如，根据Paperswithcode网站统计

发表于 10-18 16:28 •988次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。

发表于 08-17 16:11 •712次阅读

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种

发表于 10-09 10:23 •355次阅读

搜索历史

采用无监督学习的方法，用深度摘要网络总结视频

评论

深非监督学习-Hierarchical clustering 层次聚类python的实现

如何用卷积神经网络方法去解决机器监督学习下面的分类问题？

你想要的机器学习课程笔记在这：主要讨论监督学习和无监督学习

机器学习算法中有监督和无监督学习的区别

最基础的半监督学习

半监督学习最基础的3个概念

为什么半监督学习是机器学习的未来？

半监督学习：比监督学习做的更好

分析总结基于深度神经网络的图像语义分割方法

机器学习中的无监督学习应用在哪些领域

自监督学习的一些思考

融合零样本学习和小样本学习的弱监督学习方法综述

半监督学习代码库存在的问题与挑战

深度学习框架和深度学习算法教程

深度学习的由来深度学习的经典算法有哪些