Facebook的AI通过看视频自学成才-电子发烧友网

人类每天都在进行高层次的规划来指导自己的各种活动，但对于机器人来说这并不容易。幸运的是，越来越多的工作表明，层级抽象（即视觉运动子程序）可以提高强化学习中的样本效率，这是一种人工智能训练技术，它利用奖励来推动智能体实现目标。

传统上，这些层次结构必须通过端到端训练进行手动编程或者获取，这需要大量的时间、持续的注意力和足够的耐心。但是在 Arxiv.org 上新发布的论文「通过观看视频学习导航子程序」中，FacebookAI Research、加州大学伯克利分校和伊利诺伊大学厄巴纳 - 香槟分校的科学家描述了一个通过使用逆机器学习模型摄取视频“伪标记”来学习层次结构。

这让人想起去年 Facebook 开源的一对模型Talk the Walk。该模型可以使用 360 度图像、自然语言以及具有标志性地标（如银行、餐厅等）的地图来指导纽约市的街道，能够在不知道用户位置的情况下提供步行路线。

早上来杯咖啡成为很多都市白领每天必不可少的“自我唤醒”环节。坐在办公室的人类如果想去茶水间倒杯咖啡，你会从门厅走到底，拐向左边的走廊，然后再进入右边的房间。当人类在做这一系列思考与动作的时候，我们不是决定具体需要调动哪块肌肉，而是通过组合这些可重复使用的低级视觉运动子程序来达到目标，从而达成更高抽象水平的规划。

研究人员表示，这些视觉运动子程序，使规划能够减轻传统规划中的高计算成本和强化学习中的高样本复杂性等已知问题。

Facebook的系统包含两个阶段。第一阶段，研究人员通过运行训练模型，使用随机勘探数据的自我监督来生成伪标签。模型学习了分布在四个不同环境中的1500个位置点，然后随机执行30个步骤的动作，产生45,000个交互样本。

在第二阶段，大约217,000个伪标记视频被切成220万个互相独立的剪辑片段然后被输入一个模型，这个模型预测参考视频中采取的相应动作的模型，而一个单独的网络检查参考视频中的动作序列并将行为编码为矢量（例如数学表示）。另一个模型通过预测来自第一帧的轨迹的推断编码，针对任何给定视频帧选择调用哪些学习子例程。

在一个实验中，机器人被部署在真实的办公环境中。研究表明，学习视频（比如如何最有效的方式前往目标位置）能够让机器人的表现比用纯交互方法学习达到更好的效果，至少能够顾及到以前看不见的环境。

也许最令人印象深刻的是，这个训练有素的模型学会了有利于前进导航并避免障碍物，导航任务比曾经的最佳基准快4倍，这使得它能够完全自主地进行长距离行进。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26430

浏览量
264035
Facebook

Facebook

+关注

关注
3

文章
1428

浏览量
54029

原文标题：如何在办公室不动声色地绕过老板视线？Facebook的AI通过看视频自学成才

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

迪思与百度智能云联手发布AI视频创作模型

迪思传媒与百度智能云联手研发的AI视频创作模型D&S-AI Video于3月25日正式亮相，并成功集成至迪思AI智链平台。这一创新模型将传统繁琐的视

发表于 03-26 11:46 •426次阅读

Stability AI与Morph AI共同推出一体化AI视频创作工具

近日，业界领先的AI技术公司Stability AI与中国AI创业公司Morph AI达成重要合作。双方宣布共同推出一款革新性的all-in-one（一体式）

发表于 03-05 10:44 •366次阅读

探索OpenAI Sora视频AI生成技术及其应用如何使用指南

OpenAI的Sora现已扩展其能力范围，进入视频生成领域，标志着人工智能技术在多媒体内容创作上的一个重大突破。Sora的视频AI功能使得用户能够根据文本描述自动生成高质量的视频内容，

发表于 02-20 12:01 •831次阅读

AI视频年大爆发！2023年AI视频生成领域的现状全盘点

2023年，也是AI视频元年。过去一年究竟有哪些爆款应用诞生，未来视频生成领域面临的难题还有哪些？

发表于 02-20 10:40 •549次阅读

《新能源车维修技术自学，链接汇总AI智能分类》超4000案例

收藏栏链接共享-新能源车维修自学-超4000案例 -html文件详细见附件 [*附件：收藏栏链接共享-新能源车维修自学-超4000案例.zip] （注：可导入浏览器，在浏览器的收藏栏里方便查看）

发表于 02-18 03:30

什么是AI视频识别分析

视频AI识别分析是指利用人工智能技术对视频数据进行智能化检测、分析和提取有用信息的过程。通过视频AI

发表于 12-02 08:26 •868次阅读

计算光学成像如何突破传统光学成像极限

传统光学成像建立在几何光学基础上，借鉴人眼视觉“所见即所得”的原理，而忽略了诸多光学高维信息。当前传统光学成像在硬件功能、成像性能方面接近物理极限，在众多领域已无法满足应用需求。

发表于 11-17 17:08 •253次阅读

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技获奖作品展示：华南理工大学+CR8_Pro队

发表于 11-02 17:51

【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

本文将介绍如何使用Vitis-AI加速YOLOX模型实现视频中的目标检测，并对相关源码进行解读。由于演示的示例程序源码是Vitis-AI开源项目提供的，本文演示之前会介绍所需要的准备工作。演示之后

发表于 10-06 23:32

【KV260视觉入门套件试用体验】3.PL端视频采集与AI识别测试测试

的处理与数据处理的IP，可以让音视频的采集，视频编解码，图形图像处理直接通过这些IP进行预处理，并且在结合FPGA的开发进一步对视频进行AI

发表于 09-18 01:51

如何自学人工智能

如何自学人工智能随着科技的发展，人工智能（AI）已成为一个热门话题，是未来科技发展的重要方向之一。越来越多的人开始意识到AI的重要性和广泛应用的潜力，因此想要自学

发表于 08-12 17:26 •811次阅读

快手的短视频推荐算法（1）

在本文中，我们建议部署一个短视频推荐框架, 在移动设备上解决这些问题。具体来说，我们设计并部署一个微型设备排名模型以启用实时服务器端推荐结果的重新排序。我们改进其预测准确性通过利用用户的实时反馈观看视频和客户特定的实时功能。

发表于 06-19 14:51 •672次阅读

如何自学并精进FPGA

我是一名学生，目前自学fpga，进度在野火的rs232这块儿，想问之后怎样才能提升自己啊，感觉只靠视频有点纸上谈兵了，求帮助，谢谢！

发表于 06-06 10:39

在(Linux)ubuntu下通过GTK调用libvlc开发视频播放器

本项目实现了一个基于GTK和libvlc的视频播放器。使用GTK创建GUI界面，使用libvlc播放视频。用户可以通过选择视频文件，然后启动播放器来观

发表于 06-01 15:42 •1400次阅读

使用Arduino和网络摄像头的基本视频流？

720p（或更好）镜头的方法，然后我可以通过本地网址以某种方式轻松访问并登录详细信息，然后就可以观看视频了。

发表于 05-04 06:51