以《猫和老鼠》为例，计算任意视频中汤姆猫和杰瑞鼠的出镜时长-电子发烧友网

本文作者Pulkit Sharma分享了一篇有趣的项目，以《猫和老鼠》为例，计算任意视频中汤姆猫和杰瑞鼠的出镜时长。这一模型也可以用于其他电影，轻松统计各演员的上镜时间。

简介

当我开始接触深度学习时，学到的第一件事就是图像分类。这个话题非常有趣，包括我在内的很多人都沉浸在它的魅力之中。但是在我处理图像分类时总会思考，如果我能将学到的东西迁移到视频上就好了。

是否有一种模型能在特定时间内自动识别视频中的某个人物呢？结果证明的确可以做到，下面就将我的方法分享给你们！

影视明星的出镜时间是非常重要的，直接影响他们的片酬。举个例子，在《蜘蛛侠：英雄归来》中，小罗伯特唐尼仅仅出镜15分钟就有高达1000万美元的片酬。

如果我能计算任意影片中所有演员的出镜时间，那就太棒了！在这篇文章中，我将帮你理解如何在视频数据中使用深度学习。我们就用《猫和老鼠》作为例子，计算任意视频中，汤姆和杰瑞的出现时间。

读取视频并提取帧

如何用Python处理视频文件

计算出镜时间——一种简单的解决方案

我的收获

读取视频并提取帧

如上面的动图所示，，每一页纸上都有不同的画面，随着我们翻动书页，可以看到一只跳舞的鲨鱼，而且翻动的速度越快，效果越好。这也可以看作一种视频，换句话说，这种视觉效果是不同图像以特定顺序排列在一起产生的。

同样的，视频也是由一系列图片组成的，这些图片称为“帧”，可以通过组合得到原始视频。所以与视频数据有关的问题和图像分类或者目标检测问题并没有什么不同。只是从视频中提取帧需要多一个步骤。

我们这次的目的试计算汤姆和杰瑞在视频中各自的出镜时间，首先让我们确定一下文中要做的步骤：

导入并读取视频，从中提取帧，将它们保存为图片

标记一些图片用于模型的训练（这一步我已经做好了）

在训练数据上搭建自己的模型

对剩余图片进行预测

计算汤姆和杰瑞各自的出镜时间

跟着以下步骤学习，将会帮助你解决很多深度学习相关的问题。

如何用Python处理视频文件

首先要下载所有必需的库：

NumPy

Pandas

Matplotlib

Keras

Skimage

OpenCV

第一步：读取视频并从中提取帧，将其保存为图像

现在我们要下载视频，并将它转换成帧的形式。首先我们可以用VideoCapture( )函数从给定目录中提取视频，然后从视频中提取帧，用imwrite( )函数将它们保存为图像。

视频下载地址：drive.google.com/file/d/1_DcwBhYo15j7AU-v2gN61qGGd1ZablGK/view

这个过程完成后，屏幕上会出现“Done!”的字样。下面我们试着对图像（帧）进行可视化，首先用matplotlib中的imread( )函数读取图像，然后用imshow( )函数显示图像。

这就是视频中的第一帧。我们从每秒中提取一帧，由于视频时长为4:58（共298秒），我们现在一共有298张照片。

我们的任务时确定哪张照片上有汤姆，哪张有杰瑞。如果我们提取出的图像能和常见的ImageNet数据集中的图片有很大的相似性，那么这个问题就能轻而易举地解决了。但是这样的乐趣在哪里？

我们的是动画片，所以要让任何预训练模型在给定的视频中定位汤姆和杰瑞还是有难度的。

第二步：标记图片训练模型

要实现标记图片，一种可能的方案是手动贴标签。一旦模型学会了特定模式，我们就能用它在之前没见过的图像上作出预测。

要记住的一点是，有些帧里可能没有汤姆和杰瑞的镜头，所以我们要将其看成是多种类的分类问题：

0：没有汤姆和杰瑞的镜头

1：杰瑞

2：汤姆

我已经给所有图片打上了标签，所以直接在mapping.csv文件中下载即可。

映射文件包含两部分：

image_ID：包含每张照片的名称

Class.Image_ID：含有每张图对应的种类

下一步是读取图片信息，即他们的Image_ID部分：

现在我们就有了图片，记住，我们要用两部分训练模型：

训练图片

对应的种类

由于这里有三种不同情况，我们将用keras.utils中的to_catefor ical( )函数对他们进行独热编码。

图片再输入到VGG16训练前，尺寸需变为224×224×3，所以我们的图片在输入前要重设尺寸。我们要用到skimage.transform中的resize( )函数。

尺寸调整好后，我们还要对每个模型的需求进行预处理，否则模型就不会表现得很好。利用keras.applications.vgg16中的preprocess_input( )函数来完成这一步骤。

我们还需要一个验证集来检查模型在陌生图片上的性能，这里就需要用到sklearn.modelselection模块中的traintest_split( )函数来随机将图片分成训练集和验证集。

第三步：搭建模型

下一步就是搭建自己的模型。我们会用VGG16预训练模型来完成这一任务。首先导入所需的库：

下载VGG16与训练模型，并将其保存为base_model：

用该模型对X_train和X_valid进行预测，得到特征，再用特征重新训练模型。

Xtrain和Xvalid的尺寸分别为（208，7，7，512）和（90，7，7，512）。为了输入到神经网络，我们必须把它重新修改成1—D尺寸。

现在对图像进行预处理，去中心化，让模型收敛得更快。

最后，我们将搭建自己的模型，这一步可以分为三小步：

搭建模型

编译模型

训练模型

用summary( )函数检查模型的汇总信息：

模型中有一隐藏层，有1024个神经元，输出层有3个神经元（因为我们有3种不同的预测情况）。现在我们开始编译模型。

最后一步，我们要训练模型，并且用验证集检测它在陌生图像上的表现：

可以看到在验证集上的表现很不错，精确度达到85%。这就是我们如何在视频数据上训练模型，再对每一帧作出预测的步骤。

下面，我将计算汤姆和杰瑞在新视频中的出镜时间。

计算出镜时间——一种简单的解决方案

首先下载我们要用到的视频。一旦完成，可以从中提取帧：

从新视频中提取帧之后，我们就要下载test.csv文件，它包含每个提取出的帧的名字：

接着，我们将导入用于测试的图片，然后针对之前提到的预训练模型重新修改尺寸：

接着，我们还要对这些图片进行调整，就像之前处理训练图片那样：

由于我们之前训练了模型，就可以用它做出预测了。

第四步：对剩余图像进行预测

第五步：计算汤姆和杰瑞的出镜时间

刚刚我们规定了1代表杰瑞，2代表汤姆，这样就可以用上述的预测来计算两个角色的出镜时长了：

结果如上。

我的收获

为了完成这一项目，我遇到了很多问题。下面是我遇到的一些挑战及做出的应对对策。

首先，我尝试在没有删除最顶层的情况下使用预训练模型，结果并不理想。原因可能是由于我们的模型之前没有在动画片上接受训练。为了解决这个问题，我重新用图片训练模型，结果好了很多。

但是尽管用带有标记的图片训练，精确度仍然不理想。模型在训练图像上表现得并不好。所以，我试着增加图层数量。这种做法结果不错，但训练和验证精度之间并不对应。模型出现了过度拟合，它在陌生数据上表现得也不好。所以我在密集层之后增加了Dropout层，这样就解决了。

我注意到，汤姆的出镜时间更长，所以模型得出的很多结论都是汤姆。为了让模型平衡预测，我用了sklearn.utils.classweight模块中的computeclass_weight( )函数。它在数值计数较低的类别中分配了更高的权重，在较高的数值计数中分配较低权重。

另外，我还用Model Checkpoint保存了最佳模型。

最终，我们在验证数据上达到了88%左右的结果，在测试数据上达到了64%的精确度结果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

视频

视频

+关注

关注
6

文章
1890

浏览量
71882
图像分类

图像分类

+关注

关注
0

文章
87

浏览量
11838
python

python

+关注

关注
51

文章
4671

浏览量
83458

原文标题：Python视频深度学习：计算任意影片中所有演员出镜时间（代码）

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

自做会说话的汤姆猫

我想自己制作一个会说话的汤姆猫送人，不知道怎么做，各位高手可不可以帮帮小弟，不胜感激！！！有声音录入输出功能就行。我的邮箱wanganangelsnow@126.com

发表于 03-30 17:12

基于LabVIEW的会说话的汤姆猫程序

点击学习>>《龙哥手把手教你学LabVIEW视觉设计》视频教程今晚无聊，就开起LabVIEW来鼓捣，就这么做出个会说话的汤姆猫来了…不对，应该是会说话的小圆点，没有汤姆

发表于 06-26 22:58

我的毕设是汤姆猫，大家可以给我一下这方面的建议吗

我的毕设是汤姆猫，大家可以给我一下这方面的建议吗求指导程序

发表于 01-10 15:52

以贴片天线设计为例的HFSS在天线设计中的应用介绍

/近场辐射方向图、天线增益、轴比、计划比、半功率波瓣宽度、内部电磁场场型、天线阻抗、电压驻波比、S参数等等。下面以贴片天线设计为例介绍一下HFSS在天线设计中的应用。

发表于 06-27 07:05

以redhat为例的github使用

github上有许多开源的项目，你可以把代码下下来学习研究。或者你也可以自己创建个项目，用github来做版本管理，比svn用起来方便多了啊。下面以redhat为例说下怎么使用github。

发表于 07-16 06:07

以函数/任意波形发生器为例的带限噪声信号产生方法介绍

/任意波形发生器利用其配套的任意波形编辑软件就可以直接实现满足不同需求的各种带限噪声信号的输出，真实模拟通信系统内部和实际信道中的干扰环境，极大地方便了对系统进行有效、可靠的分析。　　本文着重

发表于 07-22 07:12

显微镜倍率如何计算？

的放大倍率是如何计算的？也许有人会说这不是很简单的问题嘛，但实际还是有点小复杂的。首先我们来举个例子来说：当体视显微镜目镜的倍率为10倍，变倍体变倍范围是：0.7X-4.5X，附加物镜为

发表于 02-06 13:09

如何计算显微镜的放大倍数

很多实验室都在使用显微镜，但对显微镜的相关专业知识并不了解，只是知道怎么去操作，但对于一些基本常识可能都不怎么清楚，那么今天我们就来讲讲有关显微镜的放大倍率是如何计算的？也许有人会说

发表于 02-11 09:57

什么原因视频显微镜的应用越来越广泛，华显光学为您做解答！

具体体现在哪里？既然视频显微镜又被称为数码显微镜，所以其突出的特点就是可以将图像以数模转换的方式呈现在计算机等终端上，这样的好处不仅仅是

发表于 02-12 17:13

仿猫叫电子驱鼠器电路资料推荐

本电路我们暂且称其为“仿声原理电子驱鼠器”，它不是我们常见的利用高强度超声波驱赶老鼠的工作方式，而是利用电子电路产生一种逼真的猫叫声，用模拟出来的这种叫声吓阻老鼠不让其在一定范围内活动。至于这种驱

发表于 04-28 06:36

一款电磁灭鼠器图相关资料分享

该电磁灭鼠器是采用磁场生物敬应，它将发出较低频率的脉动犁扰动磁场t使老鼠的牛理功能紊乱从而破坏老鼠的生殖能力。一般人们采用的灭鼠手段都是被动引鼠。上钩”．如药物灭鼠，对环境有一定的污染，而高压电

发表于 05-24 07:02

如何去计算STM32 PWM的任意频率

STM32 PWM任意频率计算以STM32F103为例总频是72M，定时器频率F与分频PSC、重装值ARR之间的关系为：F=72M(ARR+

发表于 08-05 07:00

电脑鼠概述

Harrison新加坡黄明吉先生个人主页2009人工智慧单晶片电脑鼠即机器人竞赛教学视频中国***地区第14届人工智慧单晶片电脑鼠竞赛3.电脑鼠实验平台以及关键技术实验平台

发表于 09-13 08:47

制作驱鼠剂的教程

描述驱鼠剂我的项目是关于驱鼠剂的，我之所以成功是因为我的房间里有很多老鼠，我必须让它消失。我有想法制作驱鼠剂。PCB

发表于 08-26 06:58

高低边开关设计应用实例：以感性负载为例

7637测试中主要波形，本实例中主要分析继电器断开后高边开关吸收的能量，以VNQ7050为例：第一步：开关导通过程

发表于 12-22 18:48

搜索历史

以《猫和老鼠》为例，计算任意视频中汤姆猫和杰瑞鼠的出镜时长

评论

自做会说话的汤姆猫

基于LabVIEW的会说话的汤姆猫程序

我的毕设是汤姆猫，大家可以给我一下这方面的建议吗

以贴片天线设计为例的HFSS在天线设计中的应用介绍

以redhat为例的github使用

以函数/任意波形发生器为例的带限噪声信号产生方法介绍

显微镜倍率如何计算？

如何计算显微镜的放大倍数

什么原因视频显微镜的应用越来越广泛，华显光学为您做解答！

仿猫叫电子驱鼠器电路资料推荐

一款电磁灭鼠器图相关资料分享

如何去计算STM32 PWM的任意频率

电脑鼠概述

制作驱鼠剂的教程

高低边开关设计应用实例：以感性负载为例