0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研发全新多模态感知AI框架 AI能同时模拟人眼和手预测物体运动

工程师邓生 来源:VentureBeat 作者:VentureBeat 2021-02-12 09:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据外媒VentureBeat报道,来自三星、麦吉尔大学和约克大学的研究人员,近日研发出一个全新的生成式多模态感知AI框架,能够根据物体初始状态的视觉和触觉数据,来预测出物体的运动趋势。

据悉,这是第一个利用视觉和触觉感知来学习多模态动力学模型的研究。

运动预测是自动化领域的一大关键技术,通过预判物体和环境的交互方式,自动化系统得以作出更加智能的决策。该团队的这项研究,似乎又将这一技术的应用向前推进了一步。

这篇论文名为《基于多模态的生成模型指导的直观物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已发表于arXiv平台。

论文链接:

https://arxiv.org/pdf/2101.04454.pdf

一、运动预测有挑战:摩擦力、压力难确定

假如你要接住一个掉落的物体,你会迅速判断它的运动走向,然后准确接住它。

但对于一个机器人来说,要准确预测出物体还未发生的运动趋势,可不是一件容易的事。

近期,不少运动预测方面的AI研究,都指出了触觉和视觉之间的协同作用。

其中,触觉数据可以反映物体和环境间的作用力、由此产生的物体运动和环境接触等关键信息,提供一种展现物体与环境交互过程的整体视角;视觉数据则可以直观反映了立体形状、位置等物体属性。

在本文研究人员看来,视觉、触觉信号的组合,或有助于推测出物体运动后的最终稳定状态。

研究人员在论文写道:“先前的研究表明,由于摩擦力、几何特性、压力分布存在不确定性,预测运动对象的轨迹具有挑战性。”

比如推一个瓶子,如何准确预测这个动作的结果,接下来这个瓶子是会向前移动,还是会翻倒?

▲《基于多模态的生成模型指导的直观物理研究(Learning Intuitive Physics with Multimodal Generative Models)》论文插图

为了减少这种不确定性,研究团队设计并实现了一个由软硬件组成的高质量AI感知系统,经训练后,该系统能捕获到运动轨迹中最关键、最稳定的元素,从而准确测量和预测物体落在表面上的最终静止状态。

二、开发新型视觉触觉传感器,打造多模态感知系统

动态预测常被表述为一个高分辨率的时间问题,但在此项研究中,研究人员关注的是物体运动后的最终结果,而不是预测细粒度的物体运动轨迹。

研究人员认为,关注未来关键时间的结果,有助于大大提高模型预测的准确度和可靠性。

该研究团队开发了一款名为“透视肌肤(STS,See-Through-Your-Skin)”的新型视觉-触觉多模态传感器,可以同时捕捉物体的视觉和触觉特征数据,并重建在1640×1232的高分辨率图像中。

由于光学触觉传感器通常使用不透明和反光的涂料涂层,研究人员开发了一种具有可控透明度的薄膜,使得传感器能同时采集关于物理交互的触觉信息和传感器外部世界的视觉信息。

具体而言,研究人员通过改变STS传感器的内部照明条件,来控制传感器的触觉和视觉测量的占空比,从而设置了反光涂料层的透明度。

如上图左上角所示,利用内部照明可将传感器表面变成透明,从而使得传感器内置摄像头能直接采集传感器外部世界的图像;上图的左下角显示,传感器也可以保持内外一致的亮度,通过感知膜形变来采集物理交互触觉信息。

借助STS传感器和PyBullet模拟器,研究人员在动态场景中快速生成大量物体交互的视觉触觉数据集,用于验证其感知系统的性能。

受多模态变分自编码器(MVAE)启发,研究团队设计了一个生成式多模态感知系统,在一个统一的MVAE框架内集成了视觉、触觉和3D Pose反馈。

MVAE可以解读STS传感器采集的视觉、触觉数据,将所有模态的物体关键信息映射到一个共享的嵌入空间,用于推断物体在运动后最终的稳定状态。

实验结果表明,MVAE架构可以被训练用于预测多模态运动轨迹中最稳定和信息最丰富的元素。

三、不惧单一模态信息缺失,准确预测物体未来状态

该研究团队生成的视觉触觉数据库主要包含三种动态模拟场景,分别是物体在平面上自由落体、物体在斜面上下滑、物体在静止状态下收到外力扰动。

下图显示了模拟三种动态场景的示例集,顶部一行显示3D Pose视图,中间一行、底部一行分别显示STS传感器采集的视觉和触觉结果。

bf4c4d28780e42c1bb1fa5e5e9bb9665.png

研究人员在三种模拟动态场景和使用STS传感器的真实实验场景中,分别验证了其动力学模型的预测能力。

如下方图表显示,在三种模拟场景中的固定步和最终步预测中,相比仅依赖视觉(VAE-visual only)或仅依赖触觉(VAE-tactile only)的单模态感知模型,多模态感知模型(MVAE)在验证集中的二进制交叉熵误差(BCE)均值更小,即预测结果的准确性更高。

a8d1bf13e33c4f2d8ab42254125e4be3.png

研究人员还用基于高时间分辨率的模型进行对比实验,发现这一模型在预测物体最终静止状态时,准确性要高于动态模型。这是由于不确定性和错误会随着时间前向传播,导致模糊和不精确的预测。

结果表明,在对中间状态不感兴趣的动态场景中,该AI框架能以更高的准确度来预测最终结果,而无需明确推理中间步骤。

此外,由于该研究方法破译了触觉、视觉、物体姿态之间的映射关系,因此即便某一模态信息缺失,比如缺乏触觉信息时,该框架仍然可以从视觉信息推测出视觉信息,从而预测物体运动后的最终落点。

135dbc0e477d4786b31a1c0ce71f9121.png

结语:制造业自动化将是运动预测的一大应用场景

该研究团队的这项新成果能够基于触觉、视觉的双模态数据对物体的运动轨迹进行预判,并推测出物体的最终静止状态。

相较于以往的运动预测技术,该研究团队实现了触觉和视觉数据的双向推测,为制造业的自动化场景提供了更多的可能性。

比如,拣货机器人能够更准确地判断货物的运动状态,从而提高拾取精度;货架机器人能够提前预判货物的运动轨迹,从而防止货物跌落破损,减少损失。

不过,这项成果能够预测的运动状态还相对有限,我们期待研究团队对复杂的运动模式、多样的物体形态进行更多的模拟和技术攻关。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296811
  • 自动化
    +关注

    关注

    30

    文章

    5887

    浏览量

    89280
  • 智能感知
    +关注

    关注

    2

    文章

    112

    浏览量

    18268
  • 运动物体
    +关注

    关注

    0

    文章

    4

    浏览量

    6808
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI6G与卫星通信:开启智能天网新时代

    需求?传统网络会因流量激增而拥堵,而AI的6G网络则能提前预测流量模式,动态调整资源分配。 AI算法能够实时分析海量数据,包括用户位置、网络负载、历史流量模式等。在2025年上海世
    发表于 10-11 16:01

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    2)渗透式AI的优势 5、大型模态模型 模态模型(LMM)可以被理解成大模型的更高级版本,不仅可以处理文本,还可以处理和理解多种类型的
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    控制器等。 具身智能常见的感知模块往往被称为智能传感器,就是在原有的传感器上加入一定的AI功能,从而可以模拟人类的5种基本感觉:视觉、听觉、触觉、嗅觉和味觉。 1、输入端的数据压缩 输入端常用的数据压缩
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和关联性 AI驱动科学:研究和模拟人类思维和认识过程。 本章节作者为我们讲解了第五范式,介绍了科学发现的一般方法和流程等。一、科学发现的5个范式 第一范式:产生于公元1000年左右的阿拉伯世界和欧洲
    发表于 09-17 11:45

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    基础。 ▲基于磁子 / 自旋波的类脑芯片示意 具身智能芯片填补了AI与物理世界的感知鸿沟,书中提出,真正的智能需具备对物理环境的感知与执行能力,这类芯片集成视觉、触觉、听觉等
    发表于 07-28 13:54

    “端云+模态”新范式:《移远通信AI大模型技术方案白皮书》正式发布

    大模型技术方案的核心优势、落地路径及标杆案例,为行业智能化升级提供了可借鉴的实践框架。洞察技术演进:AI大模型迈入“端云协同+模态”新阶段白皮书指出,
    的头像 发表于 07-28 13:08 940次阅读
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模态</b>”新范式:《移远通信<b class='flag-5'>AI</b>大模型技术方案白皮书》正式发布

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 409次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以<b class='flag-5'>AI</b>+智慧路灯杆,点亮城市治理新方式

    XMOS为普及AI应用推出基于软件定义SoC的模态AI传感器融合接口

    模态传感信号AI处理为智算中心和边缘智能开启感知智能的新篇章
    的头像 发表于 05-12 17:51 400次阅读
    XMOS为普及<b class='flag-5'>AI</b>应用推出基于软件定义SoC的<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>传感器融合接口

    设备预测性维护进入2.0时代:模态AI如何突破误报困局

    三号生产线传感器报警频发,模态 AI 技术为解决难题提供新思路。工厂升级数据层、决策层、应用层,实现故障预测,系统上线后立即显现强大能力,解决设备问题。
    的头像 发表于 04-22 09:24 623次阅读
    设备<b class='flag-5'>预测</b>性维护进入2.0时代:<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>如何突破误报困局

    海康威视发布模态大模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威视推出新一代模态大模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新
    的头像 发表于 04-17 17:12 1341次阅读

    模态交互技术解析

    。它的核心目标是模拟人感官协同的沟通方式,提供更高效、灵活和人性化的人机交互体验。 核心特点 通道融合 :整合多种输入/输出方式(如语音+手势+视觉)。 自然交互 :模仿人类
    的头像 发表于 03-17 15:12 3541次阅读

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    ,斯坦福小镇是一个非常有有意思的项目。生成式智能体作为AI领域的革命性突破,向我们揭示了计算机模拟人类行为的无限可能。凭借其创新的技术架构与精密的算法设计,这些智能体能够在虚拟环境中栩栩如生地生活与交互
    发表于 02-25 21:59

    AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

    学习了解,再总结概括将呈现出以下几个特点: 认知智能跃升:从被动执行到主动思考,Agent将具备推理规划、自主决策能力。它不再是简单的工具,而是理解上下文、洞察意图的智能伙伴。 模态融合:打破单一
    发表于 02-19 16:35

    AI边缘网关:开启智能时代的新蓝海

    ,准确率达到99.9%。 这一技术革新正在创造巨大的商业价值。在智慧城市领域,AI边缘网关可以实现交通流量实时分析、违章行为智能识别;在工业互联网中,能够实现设备预测性维护、生产工艺优化;在智慧能源领域
    发表于 02-15 11:41

    字节跳动发布OmniHuman 模态框架

    2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成
    的头像 发表于 02-07 17:50 1191次阅读