0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研发全新多模态感知AI框架 AI能同时模拟人眼和手预测物体运动

工程师邓生 来源:VentureBeat 作者:VentureBeat 2021-02-12 09:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据外媒VentureBeat报道,来自三星、麦吉尔大学和约克大学的研究人员,近日研发出一个全新的生成式多模态感知AI框架,能够根据物体初始状态的视觉和触觉数据,来预测出物体的运动趋势。

据悉,这是第一个利用视觉和触觉感知来学习多模态动力学模型的研究。

运动预测是自动化领域的一大关键技术,通过预判物体和环境的交互方式,自动化系统得以作出更加智能的决策。该团队的这项研究,似乎又将这一技术的应用向前推进了一步。

这篇论文名为《基于多模态的生成模型指导的直观物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已发表于arXiv平台。

论文链接:

https://arxiv.org/pdf/2101.04454.pdf

一、运动预测有挑战:摩擦力、压力难确定

假如你要接住一个掉落的物体,你会迅速判断它的运动走向,然后准确接住它。

但对于一个机器人来说,要准确预测出物体还未发生的运动趋势,可不是一件容易的事。

近期,不少运动预测方面的AI研究,都指出了触觉和视觉之间的协同作用。

其中,触觉数据可以反映物体和环境间的作用力、由此产生的物体运动和环境接触等关键信息,提供一种展现物体与环境交互过程的整体视角;视觉数据则可以直观反映了立体形状、位置等物体属性。

在本文研究人员看来,视觉、触觉信号的组合,或有助于推测出物体运动后的最终稳定状态。

研究人员在论文写道:“先前的研究表明,由于摩擦力、几何特性、压力分布存在不确定性,预测运动对象的轨迹具有挑战性。”

比如推一个瓶子,如何准确预测这个动作的结果,接下来这个瓶子是会向前移动,还是会翻倒?

▲《基于多模态的生成模型指导的直观物理研究(Learning Intuitive Physics with Multimodal Generative Models)》论文插图

为了减少这种不确定性,研究团队设计并实现了一个由软硬件组成的高质量AI感知系统,经训练后,该系统能捕获到运动轨迹中最关键、最稳定的元素,从而准确测量和预测物体落在表面上的最终静止状态。

二、开发新型视觉触觉传感器,打造多模态感知系统

动态预测常被表述为一个高分辨率的时间问题,但在此项研究中,研究人员关注的是物体运动后的最终结果,而不是预测细粒度的物体运动轨迹。

研究人员认为,关注未来关键时间的结果,有助于大大提高模型预测的准确度和可靠性。

该研究团队开发了一款名为“透视肌肤(STS,See-Through-Your-Skin)”的新型视觉-触觉多模态传感器,可以同时捕捉物体的视觉和触觉特征数据,并重建在1640×1232的高分辨率图像中。

由于光学触觉传感器通常使用不透明和反光的涂料涂层,研究人员开发了一种具有可控透明度的薄膜,使得传感器能同时采集关于物理交互的触觉信息和传感器外部世界的视觉信息。

具体而言,研究人员通过改变STS传感器的内部照明条件,来控制传感器的触觉和视觉测量的占空比,从而设置了反光涂料层的透明度。

如上图左上角所示,利用内部照明可将传感器表面变成透明,从而使得传感器内置摄像头能直接采集传感器外部世界的图像;上图的左下角显示,传感器也可以保持内外一致的亮度,通过感知膜形变来采集物理交互触觉信息。

借助STS传感器和PyBullet模拟器,研究人员在动态场景中快速生成大量物体交互的视觉触觉数据集,用于验证其感知系统的性能。

受多模态变分自编码器(MVAE)启发,研究团队设计了一个生成式多模态感知系统,在一个统一的MVAE框架内集成了视觉、触觉和3D Pose反馈。

MVAE可以解读STS传感器采集的视觉、触觉数据,将所有模态的物体关键信息映射到一个共享的嵌入空间,用于推断物体在运动后最终的稳定状态。

实验结果表明,MVAE架构可以被训练用于预测多模态运动轨迹中最稳定和信息最丰富的元素。

三、不惧单一模态信息缺失,准确预测物体未来状态

该研究团队生成的视觉触觉数据库主要包含三种动态模拟场景,分别是物体在平面上自由落体、物体在斜面上下滑、物体在静止状态下收到外力扰动。

下图显示了模拟三种动态场景的示例集,顶部一行显示3D Pose视图,中间一行、底部一行分别显示STS传感器采集的视觉和触觉结果。

bf4c4d28780e42c1bb1fa5e5e9bb9665.png

研究人员在三种模拟动态场景和使用STS传感器的真实实验场景中,分别验证了其动力学模型的预测能力。

如下方图表显示,在三种模拟场景中的固定步和最终步预测中,相比仅依赖视觉(VAE-visual only)或仅依赖触觉(VAE-tactile only)的单模态感知模型,多模态感知模型(MVAE)在验证集中的二进制交叉熵误差(BCE)均值更小,即预测结果的准确性更高。

a8d1bf13e33c4f2d8ab42254125e4be3.png

研究人员还用基于高时间分辨率的模型进行对比实验,发现这一模型在预测物体最终静止状态时,准确性要高于动态模型。这是由于不确定性和错误会随着时间前向传播,导致模糊和不精确的预测。

结果表明,在对中间状态不感兴趣的动态场景中,该AI框架能以更高的准确度来预测最终结果,而无需明确推理中间步骤。

此外,由于该研究方法破译了触觉、视觉、物体姿态之间的映射关系,因此即便某一模态信息缺失,比如缺乏触觉信息时,该框架仍然可以从视觉信息推测出视觉信息,从而预测物体运动后的最终落点。

135dbc0e477d4786b31a1c0ce71f9121.png

结语:制造业自动化将是运动预测的一大应用场景

该研究团队的这项新成果能够基于触觉、视觉的双模态数据对物体的运动轨迹进行预判,并推测出物体的最终静止状态。

相较于以往的运动预测技术,该研究团队实现了触觉和视觉数据的双向推测,为制造业的自动化场景提供了更多的可能性。

比如,拣货机器人能够更准确地判断货物的运动状态,从而提高拾取精度;货架机器人能够提前预判货物的运动轨迹,从而防止货物跌落破损,减少损失。

不过,这项成果能够预测的运动状态还相对有限,我们期待研究团队对复杂的运动模式、多样的物体形态进行更多的模拟和技术攻关。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40922

    浏览量

    302511
  • 自动化
    +关注

    关注

    31

    文章

    5981

    浏览量

    90620
  • 智能感知
    +关注

    关注

    2

    文章

    120

    浏览量

    18391
  • 运动物体
    +关注

    关注

    0

    文章

    4

    浏览量

    6829
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    入门开发者也快速完成工业级 AI 应用开发,同时减少平台切换带来的工具链维护成本。 在工业嵌入式领域,AI 的价值从来不是“能写代码”,
    发表于 03-18 13:49

    使用NORDIC AI的好处

    ,时延更低,系统在网络不稳定甚至离线时也继续工作。[Edge AI 概述] 提升隐私与可靠性 原始传感器数据(如运动、生理信号等)可以留在本地,只上传推理结果,有利于隐私与数据安全。 本地决策
    发表于 01-31 23:16

    恩智浦推出全新eIQ Agentic AI框架

    恩智浦半导体宣布推出全新eIQ Agentic AI框架,进一步巩固其在安全实时边缘AI领域的领导地位。该工具支持在边缘设备上直接实现自主智能体功能,助力资深与新手设备开发人员简化并加
    的头像 发表于 01-13 11:15 1531次阅读

    涂鸦Omni AI Foundation V2.6发布:低代码+模态,重塑AI硬件创新体验

    硬件产品的落地。今天,我们非常高兴地宣布:面向模态AI硬件的基座平台OmniAIFoundation正式发布V2.6版本。本次升级不仅显著提升了端到端
    的头像 发表于 12-24 18:58 641次阅读
    涂鸦Omni <b class='flag-5'>AI</b> Foundation V2.6发布:低代码+<b class='flag-5'>多</b><b class='flag-5'>模态</b>,重塑<b class='flag-5'>AI</b>硬件创新体验

    AI6G与卫星通信:开启智能天网新时代

    需求?传统网络会因流量激增而拥堵,而AI的6G网络则能提前预测流量模式,动态调整资源分配。 AI算法能够实时分析海量数据,包括用户位置、网络负载、历史流量模式等。在2025年上海世
    发表于 10-11 16:01

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    2)渗透式AI的优势 5、大型模态模型 模态模型(LMM)可以被理解成大模型的更高级版本,不仅可以处理文本,还可以处理和理解多种类型的
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    控制器等。 具身智能常见的感知模块往往被称为智能传感器,就是在原有的传感器上加入一定的AI功能,从而可以模拟人类的5种基本感觉:视觉、听觉、触觉、嗅觉和味觉。 1、输入端的数据压缩 输入端常用的数据压缩
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和关联性 AI驱动科学:研究和模拟人类思维和认识过程。 本章节作者为我们讲解了第五范式,介绍了科学发现的一般方法和流程等。一、科学发现的5个范式 第一范式:产生于公元1000年左右的阿拉伯世界和欧洲
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    想到,除了研究大脑的抽象数学模型外,能否抛弃传统的芯片实现方式,以化学物质和生物组件、材料及相关现象来构建人工神经网络或提取其功能来用于AI处理,甚至直接用生物体来实现AI功能,这就是从AI
    发表于 09-06 19:12

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    基础。 ▲基于磁子 / 自旋波的类脑芯片示意 具身智能芯片填补了AI与物理世界的感知鸿沟,书中提出,真正的智能需具备对物理环境的感知与执行能力,这类芯片集成视觉、触觉、听觉等
    发表于 07-28 13:54

    “端云+模态”新范式:《移远通信AI大模型技术方案白皮书》正式发布

    大模型技术方案的核心优势、落地路径及标杆案例,为行业智能化升级提供了可借鉴的实践框架。洞察技术演进:AI大模型迈入“端云协同+模态”新阶段白皮书指出,
    的头像 发表于 07-28 13:08 1388次阅读
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模态</b>”新范式:《移远通信<b class='flag-5'>AI</b>大模型技术方案白皮书》正式发布

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 763次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以<b class='flag-5'>AI</b>+智慧路灯杆,点亮城市治理新方式

    XMOS为普及AI应用推出基于软件定义SoC的模态AI传感器融合接口

    模态传感信号AI处理为智算中心和边缘智能开启感知智能的新篇章
    的头像 发表于 05-12 17:51 616次阅读
    XMOS为普及<b class='flag-5'>AI</b>应用推出基于软件定义SoC的<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>传感器融合接口

    设备预测性维护进入2.0时代:模态AI如何突破误报困局

    三号生产线传感器报警频发,模态 AI 技术为解决难题提供新思路。工厂升级数据层、决策层、应用层,实现故障预测,系统上线后立即显现强大能力,解决设备问题。
    的头像 发表于 04-22 09:24 899次阅读
    设备<b class='flag-5'>预测</b>性维护进入2.0时代:<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>如何突破误报困局