0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度剖析3D视觉定位技术

新机器视觉 来源:华为云社区 作者:华为云社区 2021-04-01 14:46 次阅读

引言

所谓3D视觉定位指的是根据事先构建的3D模型及相关信息,计算取得某张图像在拍摄时相机的位置和姿态。这是3D视觉的一项十分重要的技术,可以用来帮助实现人员定位与导航。本博文将基于2019年CVPR论文From Coarse to Fine: Robust Hierarchical Localization at Large Scale所采用的分级定位方案对该技术进行简要的介绍。

基本原理

3D视觉定位的直接目标是计算当前图像的照相机位姿,解决该问题的直接方案是建立3D点与2D点之间的匹配关系,通过二者的匹配关系估计相机位姿,这一问题被称作PnP(Pespective-n-Point)问题。求解PnP问题的方法有很多,常见的有P3P、EPnP、UPnP等,具体的如何实现本文不做介绍,读者可以自行搜索PnP问题的相关理论。而视觉定位需要解决的一大关键问题是如何建立3D点与2D点之间的匹配关系。对于这一点,论文作者Sarlin提出过一种分级定位的方案,以下将详细介绍该方案。

分级定位

e7de8e74-92a7-11eb-8b86-12bb97331649.png

分级定位的框架大约可以分成三步:预检索、共视聚类、局部匹配与定位。

预检索

预检索的意义在于获取前k张与当前图像最相似的图像,判断相似的依据通常是通过匹配图像的全局特征。一般而言,产生全局特征的方法可以依赖于局部特征所组成的词袋,不过近些年,一些深度学习方案也被引入了进来,例如NetVLAD或更加轻量级的MobileNetVLAD。最终通过获取当前图像的全局特征的k个最近邻来获取预检索得到的相近图集。

共视聚类

然而由于可能产生的错误匹配,所获取到的预检索图集并不一定全部都面向同一场景,这时就需要先将面向不同场景的图像区分开来,这项技术就被称作共视聚类,简而言之就是将具有共视关系的图像聚成一类。

ea0522da-92a7-11eb-8b86-12bb97331649.png

这一过程实际十分简单,它是通过匹配同名点来获取的,这些同名点在早先进行的3D建模过程中通过特征的提取与匹配已经建立了对应的关系。若两个图像中存在稳定的同名点,则认为二者共视,分成一类,否则分成两类。

局部匹配与定位

一般认为图像数量较多的类所对应的场景是正确场景的可能性较大。因此从这一场景开始,尝试获取相机位姿。获取的方式主要依赖求解PnP问题,因此需要首先构建当前图像的2D关键点在3D模型中的坐标位置。在尚不知道相机姿态前,这一信息的获取需要首先匹配当前图像和场景内的图像,特别要匹配那些能够对应到3D位置的2D特征点,若能够匹配上则确定了当前图像中的2D点和3D点的对应关系,继而即可通过对PnP问题的求解获取相机位姿。

总结

本博文基于当前被广泛采用的分级视觉定位方法对在3D视觉领域广泛使用的视觉定位方法进行了简要介绍,其主要可以被分为三个步骤,即预检索、共视聚类、局部匹配与定位,最终通过求解PnP问题来获取当前图像的位姿,从而确定拍摄者的位置。笔者后续将继续保持对3D视觉领域的研究和关注,并继续输出相关博文。

参考文献

Sarlin P E, Cadena C, Siegwart R, et al. From coarse to fine: Robust hierarchical localization at large scale[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12716-12725.

Sarlin P E, Debraine F, Dymczyk M, et al. Leveraging deep visual descriptors for hierarchical efficient localization[J]. arXiv preprint arXiv:1809.01019, 2018.

Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5297-5307.

来源:华为云社

文链接:https://bbs.huaweicloud.com/blogs/229261

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2757

    浏览量

    106477
  • 照相机
    +关注

    关注

    0

    文章

    67

    浏览量

    26694
  • 导航
    +关注

    关注

    7

    文章

    502

    浏览量

    41519

原文标题:3D视觉定位技术

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    奥比中光携多款3D相机深度参与国内3D视觉最高规格会议

    4月19日-21日,国内3D视觉最高规格会议China 3DV 2024大会在深圳举行。奥比中光作为大会铂金赞助商,携多款不同技术路线的3D相机深度
    的头像 发表于 04-24 09:26 150次阅读
    奥比中光携多款<b class='flag-5'>3D</b>相机<b class='flag-5'>深度</b>参与国内<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>最高规格会议

    3D动画原理:电阻

    电阻3D
    深圳崧皓电子
    发布于 :2024年03月19日 06:49:19

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    一文了解3D视觉和2D视觉的区别

    一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的
    的头像 发表于 12-25 11:15 534次阅读

    3D视觉引导机器人自动挑选螺栓,比人工还快速高效

    机器人3D视觉
    fuweizn
    发布于 :2023年09月21日 13:27:26

    光学3D表面轮廓仪可以测金属吗?

    光学3D表面轮廓仪是基于白光干涉技术,结合精密Z向扫描模块、3D 建模算法等快速、准确测量物体表面的形状和轮廓的检测仪器。它利用光学投射原理,通过光学传感器对物体表面进行扫描,并根据反射光的信息来
    发表于 08-21 13:41

    实时3D艺术最佳实践-灯光指南

    的照明技术下看起来更糟。 Unity游戏引擎使灯光工作简单易懂。的手机游戏的表现受到你的照明决定的影响,所以需要使用照明高效。 本指南也可在统一学习课程的格式-手臂和统一呈现:3D艺术 移动应用程序
    发表于 08-02 08:34

    实时3D艺术最佳实践-纹理技术解读

    纹理贴图获取2D曲面图像并将其映射到3D多边形上。 本指南涵盖了几种纹理优化,可以帮助您的游戏运行得更流畅、看起来更好。 在本指南的最后,您可以检查您的知识。您将了解有关主题,包括纹理图谱
    发表于 08-02 06:12

    3d视觉与2d视觉的区别 3d视觉技术的原理

    在计算机视觉中,通过使用多个相机、激光扫描仪或深度传感器等设备来模拟人类的3D视觉。这些传感器可以同时捕捉场景的多个视角,并通过计算距离和形状来创建三维模型。这种
    发表于 07-20 14:34 1338次阅读

    解决方案|3D视觉引导镜片镀膜自动上料

    3D视觉引导镜片镀膜自动上料,采用自研高精度3D视觉定位算法,定位精度小于0.1mm。
    的头像 发表于 06-14 14:42 365次阅读

    3D扫描进度更新,在等快递。还有准备3D打印。#3d建模 #3d扫描 #三维扫描 #3d设计 #创客

    3D打印机3D打印
    学习电子知识
    发布于 :2023年05月28日 20:54:11

    3d打印机已经满足不了我了 #车床 #铣床 #3d打印 #物联网 #3d

    3D打印机3D打印
    学习电子知识
    发布于 :2023年05月28日 20:53:32

    视觉处理,2d照片转3d模型

    首先,太阳高度是恒定的。 照片每像素的亮度可求。我们只需要求出太阳与眼睛到物体的夹角就能求出3d模型。 最多就是各种物质的反射率。 英伟达的oir芯片就是做汽车视觉的,大家去取取经。 有时,2-3张位置不同的照片,可以快速生成模
    发表于 05-21 17:13