0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

100多万个视频短片数据集来啦!

电子工程师 来源:lp 2019-03-15 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

想象一下,如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是,实际上,没有什么能比三秒钟的视频短片更好地传达出这一行为的含义。

Falling Asleep(入睡,来自GIPHY网站)

感谢麻省理工学院和IBM的研究人员,我们现在有了一个做了清晰的标签标记的数据集,其中包含有100多万个视频短片。这个数据集名为“Moments in Time”,已经收集了地球上发生的数百种常见行为,有鲜花绽放的美丽时刻,也有令人尴尬的被绊倒和嘴啃泥场景。

Tripping(绊倒,来自GIPHY网站)

然而,Moments in Time的创建并不是为了提供一系列GIF动画,而是为人工智能系统识别和理解视频中的行为和事件打下基础。迄今为止,大量标记过的图像数据集,如用于物体识别的ImageNet和用于场景识别的Places,在开发更准确的图像分类和理解模型中发挥了重要作用。

“视频理解尤其是视频中的行为识别,与图像理解的情况是不同的。”MIT-IBM沃森人工智能实验室的首席研究员、创建Moments in Time的主管研究员Dan Gutfreund说。“虽然用标签标记了行为的视频数据集在Moments in Time之前就已经存在,但它们比图像数据集要小好几个数量级。此外,它们是以人为中心的,有时还是针对特定领域的(比如体育)。”

因此,Gutfreund及其同事们力图开发一个分类系统,该系统可以涵盖最常见的行为(不管这些行为是由人类、动物还是物体完成的,也不管它们是在什么环境下完成的)。他们首先列出了来自VerbNet的4500个最常用的动词(VerbNet是由语言学家开发和使用的一个动词知识库)。

他们将动词解析成语义相关的词簇,然后从每个词簇中选择最常见的动词。结果显示英语是很冗余的一种语言。例如,洗浴、淋浴、沐浴、皂洗、洗发、修指甲、保湿和用牙线——这些都可以简单地归入“梳洗打扮”的范畴。在对动词进行了细致的整合之后,研究团队确定了339个用做Moments in Time基础的关键动词。

Grooming(梳洗打扮,来自GIPHY网站)

但是,当对视频本身进行分类时,会遇到一系列独特的挑战。例如,描述某个东西正在“打开”(opening),那可能是一个人正在打开一扇门,也可能是一朵花正在绽放,甚至可能是一只卡通狗正在张开嘴。更重要的是,相同帧反向播放,实际上可以描述不同的行为(“关闭”,closing),这意味着捕捉视频的时间线对于理解视频和将其正确分类是至关重要的。

Opening(打开,来自GIPHY网站)

研究人员从网上挑选了与这339个动词相关的视频,将每个视频的时长缩短到3秒。这些视频短片被发送到众包平台Amazon Mechanical Turk上,该平台上的用户帮助对100多万个视频短片进行分类(他们只需点击“是”或“否”来确认每个视频短片中是否发生了指定的行为即可)。

每个标签都经过几个用户的验证。关于该数据集如何创建的详细信息,发表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章标题为“Moments in Time Dataset: one million videos for event understanding”。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的Mathew Monfort是该项目的首席研究员,他指出,一些分类,比如“Walking”(步行)或“Cooking”(烹饪),是很简单的,而另一些则不然。“Playing Music”(演奏/播放音乐)可以是一个乐队在舞台上演奏,也可以是一个人在用收音机听音乐。Monfort说:“具有这种视觉和听觉多义性的类目的识别,对于当前的机器学习模型来说是非常具有挑战性的。”

Playing Music(演奏/播放音乐,来自GIPHY网站)

在该数据集的下一版本中,该团队计划使用相同的视频集合,并标记出每个视频中发生的多个行为。“当我们考虑视频的本质时,很明显需要更多的信息来恰当地描述一个事件,而用一个行为标签来训练和评估模型是不完整的。”Monfort说。“将多个标签纳入数据集应该可以显著改善模型训练,同时也为不同行为之间的关系问题以及如何对它们进行推理打开了大门。”

很快,更复杂的视频可以通过机器学习算法分类,轻松自如。

不久之后,机器学习算法可能可以毫不费力地对更复杂的视频加以分类。

机器学习(Machine Learning,来自GIPHY网站)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49775

    浏览量

    261840
  • 图像分类
    +关注

    关注

    0

    文章

    96

    浏览量

    12419
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26060

原文标题:100多万个视频短片数据集来啦!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出多语种语音AI开放数据与模型

    新发布的 Granary 数据包含约 100 小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
    的头像 发表于 09-23 15:34 640次阅读

    AI Cube如何导入数据

    我从在线平台标注完并且下载了数据,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么办? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    吉时利KEITHLEY DMM7510数字用表吉时利DMM7510七位半用表

    DMM7510 高精度、高分辨率数字用表 (DMM)、图形触摸屏显示器和高速、高分辨率数字化器于一身,是第一款图形采样用表。其具有 pA 灵敏度和 1M 样点/秒的采样率,能
    发表于 07-24 11:01

    云训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    张飞FOC磁场定向控制有感、无感电机驱动视频课程及STM32开发套件(共257)

    套餐三1)乘风篇-有感FOC视频课程x1套(共124);2)扬帆起航派开发板x1块;3)烧录器x1;4)直流无刷电机x1;5)全套开源资料¹x1套;¥498起
    的头像 发表于 07-01 08:07 872次阅读
    张飞FOC磁场定向控制有感、无感电机驱动<b class='flag-5'>视频</b>课程及STM32开发套件(共257<b class='flag-5'>集</b>)

    使用AICube导入数据点创建后提示数据不合法怎么处理?

    重现步骤 data目录下 labels.txt只有英文 **错误日志** 但是使用示例的数据可以完成训练并部署
    发表于 06-24 06:07

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04

    Analog Devices Inc. ADTF3175 100像素飞行时间模块数据手册

    Analog Devices ADTF3175 100像素飞行时间模块基于ADSD3100(一款100像素CMOS间接飞行时间 (ITF) 成像器,设计用于高分辨率3D深度传感和视
    的头像 发表于 06-16 11:02 625次阅读
    Analog Devices Inc. ADTF3175 <b class='flag-5'>100</b><b class='flag-5'>万</b>像素飞行时间模块<b class='flag-5'>数据</b>手册

    4K、模态、长视频:AI视频生成的下一战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 6957次阅读

    正点原子Linux系列全新视频教程来啦!手把手教你MP257开发板,让您轻松入门!

    正点原子Linux系列全新视频教程来啦!手把手教你MP257开发板,让您轻松入门! 一、视频观看 正点原子手把手教你学STM32MP257-第1期:https://www.bilibili.com/video/BV1UtEiz
    发表于 05-16 10:42

    OpenHarmony应用开发精品课程第七期来啦

    OpenHarmony应用开发精品课程第七期来啦
    的头像 发表于 04-15 14:15 520次阅读
    OpenHarmony应用开发精品课程第七期<b class='flag-5'>来啦</b>

    正点原子ND1核辐射检测仪支持检测x,γ,β射线的辐射强度,高灵敏度J321盖革-米勒计数管,支持约100辐射值记录!

    ;高灵敏J321大盖革管,准确可靠;ND1支持约100辐射值记录,U盘数据导出,方便分析;支持手持感应功能,方便好用;报警方式与阈值可调,不错过危险警告;支持倒计时功能,3D感应,
    发表于 04-15 11:09

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 03-10 08:20

    安信可大功率LoRa模组来啦,传输距离可达6.7km

    安信可大功率LoRa模组来啦LoRa小伙伴们!安信可大功率LoRa模组来啦这次小安先带来“Ra-01S-P/Ra-01SC-P”的介绍这次的新品最大发射功率+29dBm最新动态可关注安信可视频
    的头像 发表于 02-12 18:03 645次阅读
    安信可大功率LoRa模组<b class='flag-5'>来啦</b>,传输距离可达6.7km