0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能实现触觉和视觉的信息交互

Hf1h_BigDataDig 来源:YXQ 2019-07-19 11:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在加拿大作家玛格丽特•阿特伍德的著作《盲人杀手》中有这样一段描述:“触觉,先于视觉也先于语言,既是第一语言也是最后的语言,并总是诉说真相。”

被编写为视觉或者触觉的机器人一般不能实现此两种感官信息的交互。为打破这种隔绝,来自MIT(麻省理工学院)CSAIL(计算机科学与人工智能实验室)的研究团队提出了一种可预测AI,它可以通过触觉信息的训练学习到视觉特征,反之亦然,也能通过视觉信息的训练学习到物体的触觉特征。

该团队所提出的模型可以从视觉信号中“创造”出逼真的触觉信号,并直接利用触觉信息预测所检测目标及触摸部位。他们使用的库卡机械臂上装有一个特殊的触觉传感器GelSight,这是由MIT的另一研究团队设计的。

该团队利用一个简单的网络摄像头采集了近200种物体图像,包括工具、家庭用品、纺织物等,这些物体被“触摸”超过12000次。通过将这12000个小视频分解为静态帧从而生成了名为“VisGel”的数据集,该数据集包含300多万个视觉-触觉对应的图像。

CSALL博士生Yunzhu Li在其一篇相关论文中谈到:“通过观察触摸情景,我们的模型可以“想象”出触摸平坦表面或者尖锐边缘的感觉”,“当机器人只有触觉感官的时候,此模型可以仅凭触觉信号来完成和周围环境的交互。将触觉和视觉这两种感官结合在一起无疑是锦上添花。它还可能减少机器人为完成抓取任务所需的数据集”。

目前使能机器人具备更多感官能力的研究,比如MIT在2016年的项目:利用深度学习实现声音可视化、预测物体对外力反应,都使用了大量的训练数据,但不能实现视觉和触觉的交互。该团队使用VisGel数据集和生成式对抗网络(GANs)实现上述功能。

此GANs算法利用视觉或触觉的图像生成其他形式的图像。其原理简而言之,就是GANs利用生成器(generator)捏造假的图像试图骗过判别器(discriminator),判别器将辨别结果反馈给生成器以调参,以使得生成器生成更高质量的预期图像,如此相得益彰。

所见即所触

人可以通过观察物体来判断其手感,欲将这种能力赋予机器人,首先要标定目标位置,其次要推断目标区域的形状和手感。

为此,需要一张参考图像,它记录了机器人没有与外界交互时的所处的环境信息。模型在识别过程中会对比当前捕捉到的帧图像和参考图像以轻松判断所触物体的位置和大小。

好比给模型“看”了一张鼠标的图像,模型将预测可能触碰到鼠标的区域,并告诉机器人从而使其实现安全高效的抓取任务。

所触即所见

利用触觉数据产生视觉图像即所谓“所触即所见”。模型通过观察触觉图像推断所接触位置的物体形状和材质,并和参考图像对比进而“想象”出交互过程。

举个例子,将一只鞋的触觉数据传给模型,其输出将是一张图像,这张图像则显示了最有可能触摸到这只鞋的区域位置。

当灯被关掉,或者盲人进入未知区域的时候,这种技能就可以发挥其作用了。

展望

目前的训练数据只能实现特定环境下的交互。该团队希望收集更复杂环境下的训练数据以提升模型的泛化性能。MIT的新设计——tactile glove或许可以帮助他们获取更多更密集的训练数据。

翘首以盼,此类模型将协助机器人和其视觉紧密合作以实现无缝的人机交互。这些合作包括对象识别、抓取、场景理解等。

加州大学伯克利分校的博士后Andrew Owens说:“这是首次提出的视觉和触觉信号可靠的转换方法,此类方法于机器人而言将大有裨益,彼时,它们就可以回答诸如‘这东西的硬度如何?’,‘如果我用手柄握住马克杯,我会握得多好?’的问题,这是一个十分有挑战性的项目,因为问题的信号是如此的不同,其优越性也可见一斑”。

李和MIT的教授Russ Tedrake 、 Antonio Torralba,博士后Jun-Yan Zhu共同完成这篇论文。它将于下周在加利福尼亚长沙滩上举办的计算机视觉及模式识别大会上发布。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49767

    浏览量

    261707
  • MIT
    MIT
    +关注

    关注

    3

    文章

    254

    浏览量

    24922

原文标题:所见即所触,教AI实现触觉和视觉的信息交互

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人形机器人传感器产业链最新分析:力、触觉、IMU、视觉传感器为主流!(全面)

    人工智能与机器人技术飞速发展的浪潮中,人形机器人正从科幻概念逐步走向现实应用,成为全球科技竞争的新焦点。而传感器作为人形机器人的“感官”,是其实现智能交互与复杂任务执行的关键硬件基础
    的头像 发表于 10-11 18:38 5w次阅读
    人形机器人传感器产业链最新分析:力、<b class='flag-5'>触觉</b>、IMU、<b class='flag-5'>视觉</b>传感器为主流!(全面)

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:23

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    TDK收购SoftEye,打造智能眼镜系统实现通过眼球运动与人工智能进行交互

    ·TDK收购了人工智能/智能眼镜应用领域的领先技术推动者SoftEye,lnc   ·通过此次收购,TDK将能够以更快的速度交付完整的智能眼镜系统,并打造全新的人机界面,实现通过眼球运
    的头像 发表于 06-25 15:12 9508次阅读

    普强信息入选2025人工智能感知层创新榜单

    近日,由中国科学院主管、科学出版社主办的商业期刊《互联网周刊》(CIW)联合德本咨询(DBC)、中国社会科学院信息化研究中心(CIS)评选的“2025人工智能感知层创新排行”榜单揭晓发布。普强作为国内人工智能、语音
    的头像 发表于 05-10 10:45 866次阅读

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    维视智造助力高校人工智能和机器视觉课程落地

    人工智能浪潮下,机器视觉成为未来产业升级的重点技术,对培养新型创新人才意义重大。
    的头像 发表于 04-19 15:37 1185次阅读

    支持实时物体识别的视觉人工智能微处理器RZ/V2MA数据手册

    。此外,利用了 DRP技术高灵活性特点的 OpenCV 加速器,除了可进行人工智能推理的图像预处理之外,还能在单芯片上实现人工智能范畴之外的高速图像处理。 *附件:支持实时物体识别的视觉
    的头像 发表于 03-18 18:12 746次阅读
    支持实时物体识别的<b class='flag-5'>视觉</b><b class='flag-5'>人工智能</b>微处理器RZ/V2MA数据手册

    ​多模态交互技术解析

    多模态交互 多模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音
    的头像 发表于 03-17 15:12 3577次阅读

    人工智能视觉识别技术的应用领域及场景

    人工智能视觉识别技术的应用领域及场景
    的头像 发表于 03-14 11:41 2310次阅读

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据是一种货币化工具 数据是互联网
    发表于 12-24 00:33

    人工智能推理及神经处理的未来

    人工智能行业所围绕的是一个受技术进步、社会需求和监管政策影响的动态环境。机器学习、自然语言处理和计算机视觉方面的技术进步,加速了人工智能的发展和应用。包括医疗保健、金融和制造业在内的各个行业对自动化
    的头像 发表于 12-23 11:18 876次阅读
    <b class='flag-5'>人工智能</b>推理及神经处理的未来