0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TransGeo:第一种用于交叉视图图像地理定位的纯Transformer方法

3D视觉工坊 来源:3D视觉工坊 2023-01-16 11:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

主要内容:

提出了第一种用于交叉视图图像地理定位的纯Transformer方法,在对齐和未对齐的数据集上都实现了最先进的结果,与基于CNN的方法相比,计算成本更低,所提出的方法不依赖于极坐标变换和数据增强,具有通用性和灵活性。

论文出发点:

基于CNN的交叉视图图像地理定位主要依赖于极坐标变换,无法对全局相关性进行建模,为了解决这些限制,论文提出的算法利用Transformer在全局信息建模和显式位置信息编码方面的优势,还进一步利用Transformer输入的灵活性,提出了一种注意力引导的非均匀裁剪方法去除无信息的图像块,性能下降可以忽略不计,从而降低了计算成本,节省下来的计算可以重新分配来提高信息patch的分辨率,从而在不增加额外计算成本的情况下提高性能。

这种“关注并放大”策略与观察图像时的人类行为高度相似。

图像地理定位(名词解释):

基于图像的地理定位旨在通过检索GPS标记的参考数据库中最相似的图像来确定查询图像的位置,其应用在大城市环境中改善具有大的噪声GPS和导航,在Transformer出现之前,通常使用度量学习损失来训练双通道CNN框架,但是这样交叉视图检索系统在街道视图和鸟瞰视图之间存在很大的领域差距,因为CNN不能明确编码每个视图的位置信息,之后为了改善域间隙,算法在鸟瞰图像上应用预定义的极坐标变换,变换后的航空图像具有与街景查询图像相似的几何布局,然而极坐标变换依赖于与两个视图相对应的几何体的先验知识,并且当街道查询在空间上未在航空图像的中心对齐时,极坐标转换可能会失败。

Contribution:

提出了第一种基于Transformer的方法用于交叉视图图像地理定位,无需依赖极坐标变换或数据增强。

提出了一种注意力引导的非均匀裁剪策略,去除参考航空图像中的大量非信息补丁以减少计算量,性能下降可忽略不计,通过将省下来的计算资源重新分配到信息patch的更高图像分辨率进一步提高了性能。

与基于CNN的方法相比,在数据集上的最先进性能具有更低的计算成本、GPU内存消耗和推理时间。

网络架构:

251123c0-952a-11ed-bfe3-dac502259ad0.png

25375ea0-952a-11ed-bfe3-dac502259ad0.png

Patch Embedding:

256d4ab0-952a-11ed-bfe3-dac502259ad0.png

Class Token:

最后一层输出的类token被送到一个MLP头以生成最终的分类向量,使用最终输出向量作为嵌入特征,并使用上面说的损失对其进行训练。

可学习的位置嵌入:

位置嵌入被添加到每个token以保持位置信息,采用了可学习的位置嵌入,这是包括class token在内的所有(N+1)token的可学习矩阵,可学习的位置嵌入使双通道Transformer能够学习每个视图的最佳位置编码,而无需任何关于几何对应的先验知识,因此比基于CNN的方法更通用和灵活。

多头注意力:

Transformer编码器内部架构是L个级联的基本Transformer,关键组成部分是多头注意力块,它首先使用三个可学习的线性投影将输入转换为查询、键和值,表示为Q、K、V,维度为D,然后将注意力输出计算为

258decca-952a-11ed-bfe3-dac502259ad0.png

,一个k-head注意力块用k个不同的head对Q、k、V进行线性投影,然后对所有k个head并行执行attention,输出被连接并投影回模型维度D,多头注意力可以模拟从第一层开始的任意两个标记之间的强全局相关性,这在CNN中是不可能学习的,因为卷积的接受域有限。

Attention引导的非均匀裁剪:

当寻找图像匹配的线索时,人类通常会第一眼找到最重要的区域,然后只关注重要的区域并放大以找到高分辨率的更多细节,把“关注并放大”的思想用在交叉图像地理定位中可能更有益,因为两个视图只共享少量可见区域,一个视图中的大量区域,例如鸟瞰图中的高楼屋顶,在另一个视图可能看不见,这些区域对最终相似性的贡献微不足道,可以去除这些区域以减少计算和存储成本,然而重要的区域通常分散在图像上,因此CNN中的均匀裁剪不能去除分散的区域,因此提出了注意力引导的非均匀裁剪

25af1c06-952a-11ed-bfe3-dac502259ad0.png

在鸟瞰分支的最后一个transformer编码器中使用注意力图,它代表了每个token对最终输出的贡献,由于只有class token对应的输出与MLP head连接,因此选择class token与所有其他patch token之间的相关性作为注意力图,并将其重塑为原始图像形状。

模型优化:

为了在没有数据增强的情况下训练Transformer模型,采用了正则化/泛化技术ASAM。在优化损失时使用ASAM来最小化损失landscape的自适应锐度使得该模型以平滑的损失曲率收敛以实现强大的泛化能力。

25e54cd6-952a-11ed-bfe3-dac502259ad0.png

通过同时最小化的损失和自适应锐度,能够在不使用任何数据增强的情况下克服过拟合问题

实验:

在两个城市规模的数据集上进行了实验,即CVUSA和VIGOR,分别代表了空间对齐和非对齐设置

评估度量:在top-k召回准确率,表示为“R@k”,基于每个查询的余弦相似度检索嵌入空间中的k个最近参考邻居,如果地面真实参考图像出现在前k个检索图像中,则认为其正确。

预测GPS位置和地面真实GPS位置之间的真实世界距离作为VIGOR数据集上的米级别的评估。

命中率,即覆盖查询图像(包括地面真相)的前1个检索参考图像的百分比

2600fff8-952a-11ed-bfe3-dac502259ad0.png

26217bf2-952a-11ed-bfe3-dac502259ad0.png

264e90e2-952a-11ed-bfe3-dac502259ad0.png

和之前SOTA方法SAFA在计算代价上的比较

26602d3e-952a-11ed-bfe3-dac502259ad0.png

总结:

提出了第一种用于交叉视图图像地理定位的纯Transformer方法,在对齐和未对齐的数据集上都实现了最先进的结果,与基于CNN的方法相比,计算成本更低。

缺点是使用两个管道,且patch选择简单地使用不可通过参数学习的注意力图。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42437
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • cnn
    cnn
    +关注

    关注

    3

    文章

    356

    浏览量

    23533

原文标题:CVPR 2022 | TransGeo:第一种用于交叉视图图像地理定位的纯Transformer方法

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VirtualLab:光学系统的三维可视化

    : 1.使用“光线结果配置文件”并选择“系统:三维”作为结果,然后运行模拟。 2.点击视图系统(仅三维显示组件,没有光传播)。 系统:三维(光线结果配置文件)和三维系统视图 这两种方法的主要区别是,
    发表于 04-13 09:04

    Linux 下交叉编译实战:跑起来你的第一个 STM32 程序

    很多开发者第一次接触STM32,总会被“交叉编译”、“烧录程序”等概念绕晕。其实方法很简单:在Linux下配置交叉编译环境,编写简单程序,然后烧录到STM32,就可以看到成果了。本文带
    的头像 发表于 11-24 19:04 1052次阅读
    Linux 下<b class='flag-5'>交叉</b>编译实战:跑起来你的<b class='flag-5'>第一</b>个 STM32 程序

    指令集测试的一种纠错方法

    本文描述在进行指令集测试的一种纠错方法 1.打开测试指令集对应的dump文件 dump文件是指由汇编文件进行反汇编之后,可以供人阅读指令的反汇编文件。其包含了每条指令的具体操作的信息。指令集测试
    发表于 10-24 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块化的指令集架构(ISA)。优势如下: ①模块化特性②标准接口③开源
    发表于 09-12 17:30

    基于 SSID 的 Wi-Fi 定位:与其他定位服务的性能比较

    一种著名的无线网络技术,用于设备的局域网和互联网接入。Wi-Fi 通过 Wi-Fi 网络为家庭、办公室和学校等环境提供便捷的无线互联网接入服务。 Wi-Fi 定位一种地理定位功能
    发表于 08-31 21:01

    交叉导轨在医疗设备领域中的应用

    交叉导轨是一种高精度直线运动系统,广泛应用于精密机床、测量仪器、数控机床、磨床及电火花加工机床等设备中。
    的头像 发表于 08-25 17:47 814次阅读
    <b class='flag-5'>交叉</b>导轨在医疗设备领域中的应用

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-07 14:29

    基于硬件的无位置传感器无刷直流电机启动新方法

    针对传统的无位置传感器无刷直流电机控制的起动需采用复杂的软件、成本高、定位不准确、容易堵转的缺陷,提出了一种通过检测线电压差获得转子位置的方法。提出的方法能在2%的额定转速下准确检测到
    发表于 08-07 13:30

    一种永磁同步电机转子位置传感器零位偏差高精度测量方法

    电势模型的基础上,结合旋转变压器解码数据,提出了一种通过拖动电机被动转动,测量电机绕组反电势及旋变解码数据高位信号的零位偏差直接测量方法。实验表明该方法具有测试方法简单、测量精度高等特
    发表于 08-04 15:01

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-04 14:59

    一种基于PWM的电压输出DAC电路设计

    误差的方法,论文给出了两从PWM到0~5V电压输出的电路实现方法,第2电路具有很高的转换精度。 分享帖,点击下方附件免费获取完整资
    发表于 08-04 14:58

    一种带通滤波器在无位置传感器转子检测中的应用

    摘 要:论文研究了一种直流无刷电机的无位置传感器的转子位置的硬件电路检测方法。结合传统“反电动势\"方法,分析并设计了一种新的带通滤波器延时检测电路。该电路不仅可以抑制高频分量和消除直
    发表于 08-04 14:56

    用于电机控制的电流滤波方法

    分享帖,需要者可点击附件免费获取完整资料~~~*附件:适用于电机控制的电流滤波方法.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一
    发表于 06-18 16:04

    VirtualLab:光学系统的三维可视化

    配置文件”并选择“系统:三维”作为结果,然后运行模拟。 2.点击视图系统(仅三维显示组件,没有光传播)。 系统:三维(光线结果配置文件)和三维系统视图 这两种方法的主要区别是,第一种方法
    发表于 05-30 08:45

    电源效率测量方法

    本课程讲义用于将向大家介绍测量开关电源 转换效率的两不同方法第一种方法使用个瓦特表和两个万用表; 第二
    发表于 05-12 16:13