0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook的AI通过看视频自学成才

nlfO_thejiangme 来源:fqj 2019-06-05 10:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人类每天都在进行高层次的规划来指导自己的各种活动,但对于机器人来说这并不容易。幸运的是,越来越多的工作表明,层级抽象(即视觉运动子程序)可以提高强化学习中的样本效率,这是一种人工智能训练技术,它利用奖励来推动智能体实现目标。

传统上,这些层次结构必须通过端到端训练进行手动编程或者获取,这需要大量的时间、持续的注意力和足够的耐心。但是在 Arxiv.org 上新发布的论文「通过观看视频学习导航子程序」中,FacebookAI Research、加州大学伯克利分校和伊利诺伊大学厄巴纳 - 香槟分校的科学家描述了一个通过使用逆机器学习模型摄取视频“伪标记”来学习层次结构。

这让人想起去年 Facebook 开源的一对模型Talk the Walk。该模型可以使用 360 度图像、自然语言以及具有标志性地标(如银行、餐厅等)的地图来指导纽约市的街道,能够在不知道用户位置的情况下提供步行路线。

早上来杯咖啡成为很多都市白领每天必不可少的“自我唤醒”环节。坐在办公室的人类如果想去茶水间倒杯咖啡,你会从门厅走到底,拐向左边的走廊,然后再进入右边的房间。当人类在做这一系列思考与动作的时候,我们不是决定具体需要调动哪块肌肉,而是通过组合这些可重复使用的低级视觉运动子程序来达到目标,从而达成更高抽象水平的规划。

研究人员表示,这些视觉运动子程序,使规划能够减轻传统规划中的高计算成本和强化学习中的高样本复杂性等已知问题。

Facebook的系统包含两个阶段。第一阶段,研究人员通过运行训练模型,使用随机勘探数据的自我监督来生成伪标签。模型学习了分布在四个不同环境中的1500个位置点,然后随机执行30个步骤的动作,产生45,000个交互样本。

在第二阶段,大约217,000个伪标记视频被切成220万个互相独立的剪辑片段然后被输入一个模型,这个模型预测参考视频中采取的相应动作的模型,而一个单独的网络检查参考视频中的动作序列并将行为编码为矢量(例如数学表示)。另一个模型通过预测来自第一帧的轨迹的推断编码,针对任何给定视频帧选择调用哪些学习子例程。

在一个实验中,机器人被部署在真实的办公环境中。研究表明,学习视频(比如如何最有效的方式前往目标位置)能够让机器人的表现比用纯交互方法学习达到更好的效果,至少能够顾及到以前看不见的环境。

也许最令人印象深刻的是,这个训练有素的模型学会了有利于前进导航并避免障碍物,导航任务比曾经的最佳基准快4倍,这使得它能够完全自主地进行长距离行进。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302565
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    59348

原文标题:如何在办公室不动声色地绕过老板视线?Facebook的AI通过看视频自学成才

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    , GPIO 。这意味着开发者可以直接驱动伺服电机(通过PWM)、连接激光雷达(通过UART/SPI)、读取各类传感器数据。这使得AI Station不仅是一台电脑,更是一个 机器人主控板 。它可
    发表于 03-10 14:19

    鸿蒙手机系统6.0用浏览器看视频视频显示不能横屏。怎么设置?

    鸿蒙手机系统6.0用浏览器看视频视频显示不能横屏。怎么设置? 如何掂让这个竖屏切换为横屏?
    发表于 12-20 20:10

    瑞芯微SOC智能视觉AI处理器

    需要连接多种外设的产品。显示: 支持双屏异显,最高4K@60fps输出。 RK1126B: 一款集成自研NPU的智能视觉AI处理器,专注于视频输入端的AI分析与处理。CPU: 双核A53,主要负责
    发表于 12-19 13:44

    【飞凌OK-MX9596-C开发板试用】②体验WIFI、蓝牙、音频、视频,为AI应用打下基础

    大的一款板子,搭载了超强的多核处理器,非常适合开发工业互联、AI应用等,本篇体验下开发板的WIFI、蓝牙、音频、视频模块,为后续开发AI应用打下基础。 第一部分:WIFI功能 本机搭载了WIFI/蓝牙模块
    发表于 10-21 18:17

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    是一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说 这可能吗? 用机器来生成假说: 1、直接生成 生成式
    发表于 09-17 11:45

    RK3576助力智慧安防:8路高清采集与AI识别

    在智慧城市和数字化园区的建设过程中,安防监控系统正从“被动记录”走向“主动识别与分析”。随着AI算法的成熟和高清视频处理能力的提升,市场对多路视频采集、实时拼接、智能识别的需求日益增强。 米尔电子
    发表于 08-22 17:41

    FLIR声学成像仪在工业检测领域的应用

    在工业检测领域,声学成像仪已成为不可或缺的工具,但你是否知道,并非所有声学成像仪都同等出色?特别是在评估用于工业的声学成像仪时,我们往往容易被技术参数所迷惑,尤其是MEMS传感器的数量。然而,真相是:麦克风的质量、布局以及信号处
    的头像 发表于 08-13 09:57 1189次阅读

    AI视频分析系统

    方案背景人工智能大时代背景下,视频应用领域相关的行业应用方式已经发生了深刻的变化,各论安防监控还是各类垂直行业视频应用,都需要AI视觉分析与识别技术助力,而且需求广泛而迫切。在应用层面,以AI
    的头像 发表于 08-06 14:39 1056次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>视频</b>分析系统

    AI视频分析和算法集合

    AI
    jf_02235694
    发布于 :2025年07月23日 16:10:12

    家电电路识图自学手册

    家电电路识图自学手册
    发表于 07-11 15:49 16次下载

    【BPI-CanMV-K230D-Zero开发板体验】视频会议场景下的 AI 应用(电子云台 EPTZ、人像居中 / 追踪、画中画)

      近几年由于各种原因,很多的会议都转到了线上,各种视频会议软件用户也都呈几何倍数增长。   视频会议场景下,对于音视频处理都有一定要求,AI 时代下,人们已经不仅仅满足于听的到,看的
    发表于 07-09 20:56

    电子工程师自学成才手册.提高篇

    《电子工程师自学成才手册》分为基础篇、提高篇、精通篇三册。本书为提高篇,主要包括电路分析基础,放大电路,集成运算放大器,选频电路,正弦波振荡器,调制与解调电路,频率变换与反馈控制电路,电源电路
    发表于 07-03 16:09

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    优秀模型。目前,该模型已通过豆包App、即梦AI、火山引擎等平台对外开放。                  
    的头像 发表于 06-16 00:13 7545次阅读

    看视频答题抽好礼 | 功率放大器应用知多少?线上有奖问答等你来战!

    ,今天就请跟随我们的视频走进功率放大器的经典应用,一起看视频,涨知识吧!介电弹性体:柔性驱动的新引擎介电弹性体被认为是最有前途的“人工肌肉”材料,广泛应用于软体机器
    的头像 发表于 05-30 18:04 835次阅读
    <b class='flag-5'>看视频</b>答题抽好礼 | 功率放大器应用知多少?线上有奖问答等你来战!

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练样本,
    发表于 04-28 11:11