0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于视觉的机器人抓取系统

新机器视觉 来源:CSDN 作者:ljc_coder 2022-05-07 15:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0

导读

抓取综合方法是机器人抓取问题的核心,本文从抓取检测、视觉伺服和动态抓取等角度进行讨论,提出了多种抓取方法。各位对机器人识别抓取感兴趣的小伙伴,一定要来看一看!千万别错过~

/ contents

1. 引言

1.1抓取综合方法

1.2 基于视觉的机器人抓取系统

2. 抓取检测、视觉伺服和动态抓取

2.1抓取检测

2.2 视觉伺服控制

2.3动态抓取

3. 本文实现的方法

3.1网络体系结构

3.2 Cornell 抓取数据集

3.3 结果评估

3.4视觉伺服网络体系结构

3.5VS数据集

54164836-cd42-11ec-bce3-dac502259ad0.png

1

引言

找到理想抓取配置的抓取假设的子集包括:机器人将执行的任务类型、目标物体的特征、关于物体的先验知识类型、机械爪类型,以及最后的抓取合成。

注:从本文中可以学习到视觉伺服的相关内容,用于对动态目标的跟踪抓取或自动调整观察姿态。因为观察的角度不同,预测的抓取框位置也不同:抓取物品离相机位置越近,抓取预测越准。

1.1

抓取综合方法

抓取综合方法是机器人抓取问题的核心,因为它涉及到在物体中寻找最佳抓取点的任务。这些是夹持器必须与物体接触的点,以确保外力的作用不会导致物体不稳定,并满足一组抓取任务的相关标准。

抓取综合方法通常可分为分析法和基于数据的方法。

分析法是指使用具有特定动力学行为的灵巧且稳定的多指手构造力闭合

基于数据的方法指建立在按某种标准的条件下,对抓取候选对象的搜索和对象分类的基础上。(这一过程往往需要一些先验经验)

1.2

基于视觉的机器人抓取系统

基于视觉的机器人抓取系统一般由四个主要步骤组成,即目标物体定位、物体姿态估计、抓取检测(合成)和抓取规划。

一个基于卷积神经网络的系统,一般可以同时执行前三个步骤,该系统接收对象的图像作为输入,并预测抓取矩形作为输出。

而抓取规划阶段,即机械手找到目标的最佳路径。它应该能够适应工作空间的变化,并考虑动态对象,使用视觉反馈。

目前大多数机器人抓取任务的方法执行一次性抓取检测,无法响应环境的变化。因此,在抓取系统中插入视觉反馈是可取的,因为它使抓取系统对感知噪声、物体运动和运动学误差具有鲁棒性。

2

抓取检测、视觉伺服和动态抓取

抓取计划分两步执行:

首先作为一个视觉伺服控制器,以反应性地适应对象姿势的变化。

其次,作为机器人逆运动学的一个内部问题,除了与奇异性相关的限制外,机器人对物体的运动没有任何限制。

2.1

抓取检测

早期的抓取检测方法一般为分析法,依赖于被抓取物体的几何结构,在执行时间和力估计方面存在许多问题。

此外,它们在许多方面都不同于基于数据的方法。

基于数据的方法:Jiang、Moseson和Saxena等人仅使用图像,从五个维度提出了机器人抓取器闭合前的位置和方向表示。

如下图,该五维表示足以对抓取姿势的七维表示进行编码[16],因为假定图像平面的法线近似。因此,三维方向仅由给出。

5430f10e-cd42-11ec-bce3-dac502259ad0.png

本文的工作重点是开发一种简单高效的CNN,用于预测抓取矩形。

在训练和测试步骤中,所提出的网络足够轻,可以联合应用第二个CNN,解决视觉伺服控制任务。因此,整个系统可以在机器人应用中实时执行,而不会降低两项任务的精度。

2.2

视觉伺服控制

经典的视觉伺服(VS)策略要求提取视觉特征作为控制律的输入。我们必须正确选择这些特征,因为控制的鲁棒性与此选择直接相关。

最新的VS技术探索了深度学习算法,以同时克服特征提取和跟踪、泛化、系统的先验知识以及在某些情况下处理时间等问题。

Zhang等人开发了第一项工作,证明了在没有任何配置先验知识的情况下,从原始像素图像生成控制器的可能性。作者使用Deep Q-Network ,通过深度视觉运动策略控制机器人的3个关节,执行到达目标的任务。训练是在模拟中进行的,没有遇到真实的图像。

遵循强化学习方法的工作使用确定性策略梯度设计新的基于图像的VS或Fuzzy Q-Learning,依靠特征提取,控制多转子空中机器人。

在另一种方法中,一些研究视觉伺服深度学习的工作是通过卷积神经网络进行的。CNN的泛化能力优于RL,因为RL学习的参数是特定于环境和任务的。

本文设计了四种卷积神经网络模型作为端到端视觉伺服控制器的潜在候选。网络不使用参考图像和当前图像以外的任何类型的附加信息来回归控制信号

因此,所提出的网络作为实际上的控制器工作,预测速度信号,而不是相对姿态。

2.3

动态抓取

学习感知行为的视觉表征,遵循反应范式,直接从感觉输入生成控制信号,无需高级推理,有助于动态抓取。

强化学习方法适用于特定类型的对象,并且仍然依赖于某种先验知识,因此,最近大量研究探索了将深度学习作为解决闭环抓取问题的方法。

Levine等人提出了一种基于两个组件的抓取系统。第一部分是预测CNN,其接收图像和运动命令作为输入,并输出通过执行这样的命令,所产生的抓取将是令人满意的概率。第二个部分是视觉伺服功能。这将使用预测CNN来选择将持续控制机器人成功抓取的命令。这称为是深度强化学习,需要很久的训练时间。

2019年,Morrison, Corke 和 Leitner 开发了一种闭环抓取系统,在这种系统中,抓取检测和视觉伺服不是同时学习的。作者使用完全CNN获取抓取点,并应用基于位置的视觉伺服,使抓取器的姿势与预测的抓取姿势相匹配。

3

本文实现的方法

VS的目的是通过将相机连续获得的图像与参考图像进行比较,引导操纵器到达机器人能够完全看到物体的位置,从而满足抓取检测条件。因此,该方法的应用涵盖了所有情况,其中机器人操作器(相机安装在手眼模式下)必须跟踪和抓取对象。

该系统包括三个阶段:设计阶段、测试阶段和运行阶段。第一个是基于CNN架构的设计和训练,以及数据集的收集和处理。在第二阶段,使用验证集获得离线结果,并根据其准确性、速度和应用领域进行评估。第三阶段涉及在机器人上测试经过训练的网络,以评估其在实时和现实应用中的充分性。

在运行阶段,系统运行的要求是事先获得目标对象的图像,该图像将被VS用作设定点。只要控制信号的L1范数大于某个阈值,则执行控制回路。

54611fc8-cd42-11ec-bce3-dac502259ad0.png

单个参考图像作为视觉伺服CNN的输入之一呈现给系统。相机当前获取的图像作为该网络的第二个输入,并作为抓取CNN的输入。这两个网络都连续运行,因为抓取CNN实时预测矩形以进行监控,VS网络执行机器人姿势的实时控制。

VS CNN预测一个速度信号,该信号乘以比例增益,以应用于相机中。机器人的内部控制器寻找保证相机中预测速度的关节速度。在每次循环执行时,根据机器人的当前位置更新当前图像,只要控制信号不收敛,该循环就会重复。

当满足停止条件时,抓取网络的预测映射到世界坐标系。机器人通过逆运动学得到并到达预测点,然后关闭夹持器。

3.1

网络体系结构

5475b3b6-cd42-11ec-bce3-dac502259ad0.png

该卷积网络架构被用于抓取检测。网络接收224×224×3的RGB图像作为输入,无深度信息。

layer 1 由32个3×3卷积组成,layer 2 包含164个卷积。在这两种情况下,卷积运算都是通过步长2和零填充(zero-padding)执行的,然后是批标准化(batch normalization)和2×2最大池化。layer 3 包含96个卷积,其中卷积使用步长1和零填充执行,然后仅执行批标准化。layer 4 ,也是最后一层,卷积层由128个卷积组成,以步长1执行,然后是2×2最大池化。

在最后一层卷积之后,生成的特征映射在包含4608个元素的一维向量中被展开,进一步传递到两个全连接(FC)层,每个层有256个神经元。在这些层次之间,训练期间考虑50%的dropout rate。

最后,输出层由5个神经元组成,对应于编码抓取矩形的**值。在所有层中,使用的激活函数都是ReLU**,但在输出层中使用线性函数的情况除外。

3.2

Cornell 抓取数据集

为了对数据集真值进行编码,使用四个顶点的和坐标编译抓取矩形。

54d16eea-cd42-11ec-bce3-dac502259ad0.png

和参数分别表示矩形中心点的和坐标,可从以下公式获得:

54e82e28-cd42-11ec-bce3-dac502259ad0.png

计算夹持器开口和高度,同样根据四个顶点计算:

5520b98c-cd42-11ec-bce3-dac502259ad0.png

最后,表示夹持器相对于水平轴方向的由下式给出:

5533c90a-cd42-11ec-bce3-dac502259ad0.png

3.3

结果评估

预测矩形()和真值矩形()之间的角度差必须在30度以内。

雅卡尔指数(交并比)需要大于0.25,而不是像一般那样“达到0.25即可”。

3.4

视觉伺服网络体系结构

与抓取不同,设计用于执行机械手视觉伺服控制的网络接收两个图像作为输入,并且必须回归六个值,考虑到线性和角度相机速度。

这些值也可以分为两个输出,共有四个模型处理VS任务。

模型1-直接回归(最终实验效果最佳)。它基本上与抓取网络相同,除了在第三卷积层中包含最大池化和不同的输入维度,这导致特征图上的比例差异相同。

5568554e-cd42-11ec-bce3-dac502259ad0.png

模型2-任务特定回归。网络输入被串联,第三组特征图由两个独立的层序列处理(多任务网络)。因此,网络以两个3D矢量的形式预测6D速度矢量。具体来说,该结构由一个共享编码器和两个特定解码器组成 - 一个用于线速度,另一个用于角速度。

558b3fdc-cd42-11ec-bce3-dac502259ad0.png

模型3-串联特征的直接回归和模型4-相关特征的直接回归,两个模型的结构类似,通过关联运算符()区分。

模型3简单连接;模型4使用相关层。

55f27b5c-cd42-11ec-bce3-dac502259ad0.png

模型3简单地由第三个卷积层产生的特征映射连接,因此第四个层的输入深度是原来的两倍。而模型4有一个相关层,帮助网络找到每个图像的特征表示之间的对应关系。原始相关层是flow network FlowNet的结构单元。

3.5

VS数据集

该数据集能够有效地捕获机器人操作环境的属性,具有足够的多样性,以确保泛化。

机器人以参考姿态为中心的高斯分布的不同姿态,具有不同的标准偏差(SD)。

下表为参考姿势(分布的平均值)和机器人假设的标准偏差集(SD)。

560343c4-cd42-11ec-bce3-dac502259ad0.png

SD选择考虑了机器人在VS期间必须执行的预期位移值。

从高SD获得的图像有助于网络了解机器人产生大位移时图像空间中产生的变化。

当参考图像和当前图像非常接近时,从低SD获得的实例能够减少参考图像和当前图像之间的误差,从而在稳态下获得良好的精度。

平均SD值有助于网络在大部分VS执行期间进行预测。

获得数据后,数据集以**的形式构造,其中图像为I**,****是拍摄该图像时对应的相机姿态。

为泰特-布莱恩角内旋(按照变换)

已处理数据集的每个实例都采用()表示。是选择作为所需图像的随机实例;选择另一个实例作为当前图像;是二者的变换。

通过齐次变换矩阵形式表示每个姿势(由平移和欧拉角表示)来实现(和),然后获得

最后,对于实际上是控制器的网络,其目的是其预测相机的速度信号,即:E控制信号。 被转化为

是比例相机速度。由于在确定标记比例速度时不考虑增益,因此使用了周期性项,并且在控制执行期间必须对增益进行后验调整。

速度由表示:

56648e68-cd42-11ec-bce3-dac502259ad0.png

其中,是旋转矩阵;****同一矩阵第i行和第j列的元素;是与当前相机位置到期望相机位置的平移向量;是比例增益(初始设置为1)。

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31582

    浏览量

    224156
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42467
  • 视觉
    +关注

    关注

    1

    文章

    183

    浏览量

    24892

原文标题:【机器人识别抓取综述】基于视觉的机器人抓取—从物体定位、物体姿态估计到平行抓取器抓取估计

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2026年中国十大机器视觉公司的决胜逻辑:全栈能力与场景深耕

    与轨道交通领域,其提供的高精度视觉检测装备表现卓越;同时,其FZMotion光学运动捕捉系统成功切入机器人产业链,为头部厂商提供高效的数据采集与量产检测服务,大幅提升生产效率。 **4. **天准
    发表于 05-15 09:16

    智能机器人从0到1系统入门课程 带源码课件 百度网盘下载

    机器人 AI 交互:语音识别 + 视觉识别入门实践 在人工智能技术飞速演进的当下,机器人正从冰冷的自动化设备向具备感知能力的智能体进化。传统的机器人交互往往局限于单一的指令执行,缺乏对
    发表于 04-11 16:41

    机器人主控核心板米尔RK3576 + ROS2,NPU加速实现目标跟随与机械臂抓取

    操作”——识别特定物体、主动跟随、近距离抓取。本文将在此基础上,集成深度摄像头,实现机器人核心功能: 使用米尔RK3576 NPU加速MixFormerV2进行目标跟踪,替代传统OpenCV算法
    发表于 04-10 21:23

    双芯光缆在机器人控制中的应用案例

    。 案例一:工业机器人视觉系统的高速图像传输 场景需求: 在汽车制造、电子装配等工业场景中,机器人需通过视觉系统实时识别工件位置、姿态及缺陷,指导机械臂完成高精度操作(如焊接、
    的头像 发表于 03-27 10:07 181次阅读

    3D视觉引导拆码垛:一文读懂“机器眼”如何指挥机器人搬货?

    在物流仓库或现代化工厂,你常会看到这样的场景:机械臂精准地伸向堆叠如山的纸箱、料箱,甚至软包,轻松抓取并放到传送带上,整个过程行云流水,无需人工干预。让机器人从“盲人摸象”到“火眼金睛”的秘诀,就是
    的头像 发表于 03-05 13:17 473次阅读
    3D<b class='flag-5'>视觉</b>引导拆码垛:一文读懂“<b class='flag-5'>机器</b>眼”如何指挥<b class='flag-5'>机器人</b>搬货?

    索尼FCB-EV9500M MIPI输出:机器人视觉系统的革新引擎

    在工业自动化与智能服务机器人快速发展的今天,视觉系统已成为机器人感知环境、执行任务的核心组件。索尼FCB-EV9500M作为一款搭载MIPI接口的一体化高清摄像机模组,凭借其卓越的图像质量、低延迟
    的头像 发表于 02-26 10:27 450次阅读

    解锁“试管自动抓取搬运”新纪元:富唯智能复合机器人重塑精准物流

    的特性,重新定义精准搬运的未来。 富唯智能复合机器人创新性地将协作机器人的灵活操作、移动机器人的自主导航,以及先进的视觉引导技术融合于一体。其搭载的ICD系列核心控制器,实现了对整个
    的头像 发表于 12-31 17:01 1486次阅读
    解锁“试管自动<b class='flag-5'>抓取</b>搬运”新纪元:富唯智能复合<b class='flag-5'>机器人</b>重塑精准物流

    如何使用机器人分析仪EtherCAT-Analyzer抓取主从站数据?

    EtherCAT总线在机器人控制总线里占据重要地位。这次,我们搭建了包含EtherCAT主从站和分析仪的完整环境,用机器人分析仪EtherCAT-Analyzer实际抓取主从站之间的通讯数据。实测
    的头像 发表于 12-22 11:46 1042次阅读
    如何使用<b class='flag-5'>机器人</b>分析仪EtherCAT-Analyzer<b class='flag-5'>抓取</b>主从站数据?

    高精度机器人控制的核心——基于 MYD-LT536 开发板的精密运动控制方案

    ISP多媒体接口,适合构建机器人视觉-运动融合系统,实现工件识别与动态定位。 3. 支持闭环控制与误差校正 可结合高分辨率编码器反馈数据,运行机器人闭环控制算法; 利用AI 协处理
    发表于 11-14 15:48

    变焦、高速、高清:索尼FCB-ER9500机芯如何重塑机器人视觉

    在现代化工业车间里,一台搭载了新型视觉系统机器人正精准地检测着精密零部件的微小瑕疵,这是工业自动化领域正在发生的变革场景。 工业机器人正逐渐成为智能制造的核心力量,而视觉系统作为
    的头像 发表于 11-13 09:39 891次阅读

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    。· 利用开发板上的MIPI CSI1和CSI2接口,完整接入8路摄像头,实现了所有通道的视频预览与采集,为机器人构建了全方位的视觉感知系统。卓越性能表现:· CPU占用率:34%· DDR占用率:50
    发表于 10-29 16:41

    15分钟快速部署,复合机器人如何重塑“上下料机器人哪家好”的行业答案

    富唯智能复合机器人突破传统技术边界,将协作机器人、移动机器人视觉引导技术深度融合。其搭载的ICD系列核心控制器,实现了对整个系统的一体化控
    的头像 发表于 10-17 16:18 389次阅读
    15分钟快速部署,复合<b class='flag-5'>机器人</b>如何重塑“上下料<b class='flag-5'>机器人</b>哪家好”的行业答案

    机器人竞技幕后:磁传感器芯片激活 “精准感知力”

    。 同时,磁传感器还是多传感器融合中的 “稳定锚点”。在机器人运动系统的融合定位中,它常作为核心基准。以 “足球机器人” 项目为例,当视觉传感器因强光出现噪点、超声波传感器受声波反
    发表于 08-26 10:02

    工业机器人的特点

    的基础,也是三者的实现终端,智能制造装备产业包括高档数控机床、工业机器人、自动化成套生产线、精密仪器仪表、智能传感器、汽车自动化焊接线、柔性自动化生产线、智能农机、3D 打印机等领域。而智能制造装备中工业
    发表于 07-26 11:22

    机器人遇上“语言障碍”:CCLINKIE转Profinet的“破冰外挂”来啦\\!

    的总装线曾陷入“效率怪圈”:西门子Profinet网关机器人需对接三菱CCLINKIE输送线,传统网关的1ms延迟让机器人抓取动作慢半拍,每小时漏装20个零件。更棘手的是协议适配问题:CCLINKIE
    发表于 06-04 14:31