100多万个视频短片数据集来啦！-电子发烧友网

想象一下，如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是，实际上，没有什么能比三秒钟的视频短片更好地传达出这一行为的含义。

Falling Asleep（入睡，来自GIPHY网站）

感谢麻省理工学院和IBM的研究人员，我们现在有了一个做了清晰的标签标记的数据集，其中包含有100多万个视频短片。这个数据集名为“Moments in Time”，已经收集了地球上发生的数百种常见行为，有鲜花绽放的美丽时刻，也有令人尴尬的被绊倒和嘴啃泥场景。

Tripping（绊倒，来自GIPHY网站）

然而，Moments in Time的创建并不是为了提供一系列GIF动画，而是为人工智能系统识别和理解视频中的行为和事件打下基础。迄今为止，大量标记过的图像数据集，如用于物体识别的ImageNet和用于场景识别的Places，在开发更准确的图像分类和理解模型中发挥了重要作用。

“视频理解尤其是视频中的行为识别，与图像理解的情况是不同的。”MIT-IBM沃森人工智能实验室的首席研究员、创建Moments in Time的主管研究员Dan Gutfreund说。“虽然用标签标记了行为的视频数据集在Moments in Time之前就已经存在，但它们比图像数据集要小好几个数量级。此外，它们是以人为中心的，有时还是针对特定领域的（比如体育）。”

因此，Gutfreund及其同事们力图开发一个分类系统，该系统可以涵盖最常见的行为（不管这些行为是由人类、动物还是物体完成的，也不管它们是在什么环境下完成的）。他们首先列出了来自VerbNet的4500个最常用的动词（VerbNet是由语言学家开发和使用的一个动词知识库）。

他们将动词解析成语义相关的词簇，然后从每个词簇中选择最常见的动词。结果显示英语是很冗余的一种语言。例如，洗浴、淋浴、沐浴、皂洗、洗发、修指甲、保湿和用牙线——这些都可以简单地归入“梳洗打扮”的范畴。在对动词进行了细致的整合之后，研究团队确定了339个用做Moments in Time基础的关键动词。

Grooming（梳洗打扮，来自GIPHY网站）

但是，当对视频本身进行分类时，会遇到一系列独特的挑战。例如，描述某个东西正在“打开”（opening），那可能是一个人正在打开一扇门，也可能是一朵花正在绽放，甚至可能是一只卡通狗正在张开嘴。更重要的是，相同帧反向播放，实际上可以描述不同的行为（“关闭”，closing），这意味着捕捉视频的时间线对于理解视频和将其正确分类是至关重要的。

Opening（打开，来自GIPHY网站）

研究人员从网上挑选了与这339个动词相关的视频，将每个视频的时长缩短到3秒。这些视频短片被发送到众包平台Amazon Mechanical Turk上，该平台上的用户帮助对100多万个视频短片进行分类（他们只需点击“是”或“否”来确认每个视频短片中是否发生了指定的行为即可）。

每个标签都经过几个用户的验证。关于该数据集如何创建的详细信息，发表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上，文章标题为“Moments in Time Dataset: one million videos for event understanding”。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的Mathew Monfort是该项目的首席研究员，他指出，一些分类，比如“Walking”（步行）或“Cooking”（烹饪），是很简单的，而另一些则不然。“Playing Music”（演奏/播放音乐）可以是一个乐队在舞台上演奏，也可以是一个人在用收音机听音乐。Monfort说：“具有这种视觉和听觉多义性的类目的识别，对于当前的机器学习模型来说是非常具有挑战性的。”

Playing Music（演奏/播放音乐，来自GIPHY网站）

在该数据集的下一版本中，该团队计划使用相同的视频集合，并标记出每个视频中发生的多个行为。“当我们考虑视频的本质时，很明显需要更多的信息来恰当地描述一个事件，而用一个行为标签来训练和评估模型是不完整的。”Monfort说。“将多个标签纳入数据集应该可以显著改善模型训练，同时也为不同行为之间的关系问题以及如何对它们进行推理打开了大门。”

很快，更复杂的视频可以通过机器学习算法分类，轻松自如。

不久之后，机器学习算法可能可以毫不费力地对更复杂的视频加以分类。

机器学习（Machine Learning，来自GIPHY网站）