0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DW-Siam:Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更宽更深的孪生网络

jf_96884364 来源:代码的路 作者:代码的路 2023-01-12 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

原文链接

论文地址:https://arxiv.org/pdf/1901.01660.pdf

摘要

目前在孪生网络追踪器中使用的主干网络相对较浅,例AlexNet。本文研究如何利用更深和更广的卷积神经网络来增强跟踪的鲁棒性和准确性。使用改进后的网络直接替换,例如ResNet和Inception,并没有带来改进。主要原因是 1)神经元感受野的大幅增加导致特征可辨性和定位精度降低; 2)卷积的网络 padding 在学习中引起位置偏差。

为了解决这些问题,我们提出了新的残差模块,以消除padding的负面影响,并进一步设计使用这些模块的新架构,具有受控的感受野大小和步长。设计的架构应用于SiamFC+和SiamRPN时保证了实时跟踪速度。实验表明,仅仅由于所提出的网络架构,我们的 SiamFC+和 SiamRPN+分别在OTB-15,VOT-16和VOT-17数据集上,相对于原始版本获得了高达9.8%/ 5.7%(AUC),23.3%/ 8.8%(EAO)和 24.4%/ 25.0%(EAO)的相对改进。

1.介绍

1.1 相关研究

RPN详细介绍:https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

SiamFC详细介绍:https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

SiamRPN详细介绍:https://mp.weixin.qq.com/s/pmnip3LQtQIIm_9Po2SndA

1.2 本文介绍

我们用更深更广的网络取代VGG,Inception和ResNet等网络的浅层主干网。但这种简单的替换并没有带来太大的改进,甚至可能在网络深度或宽度增加时导致性能大幅下降,如图1所示。

图1:成功图的AUC与网络深度和宽度。宽度width是指模块中分支的数量。通过对 OTB-13 的评估,使用具有不同主干网络的 SiamFC获得了这个结果。

分析了Siamese网络架构,确定神经元的感受野大小、卷积步长、padding是影响跟踪精度的三个重要因素。感受野确定用于计算特征的图像区域。较大的感受野提供更大的图像上下文,而较小的感受野可能无法捕捉目标对象的结构。stride影响定位精度,同时控制输出特征图的大小。padding在模型训练中引起潜在的位置偏差。

在本文中,我们通过设计新的残差模块和网络架构来解决这些问题。首先,我们提出了一组基于“瓶颈(bottleneck)”的残差块的内部裁剪(cropping-inside residual,CIR)单元。CIR单元在块内部裁剪出受填充 padding 影响的特征(即接收填充信号的特征),从而防止卷积滤波器学习位置偏差。其次,我们通过堆叠 CIR单元设计了两种网络架构,即更深和更宽的网络。为了提高定位精度,我们设计了特定的步幅和感受野。

2. 性能退化分析

性能下降可以直接归因于网络结构,是图1实验中唯一改变的设置。因此,我们首先确定这些网络架构之间的结构差异。如表格2所示,除了深度和宽度之外,网络中还有其他几个不同的内部网络因素,包括步幅(STR),填充(PAD),最后一层神经元的感受野(RF)和输出特征尺寸(OFS)。

我们修改了 AlexNet,VGG,Inception 和 ResNet 的结构,并揭示了内部因素的影响。如表格1所示,Siamese更喜欢中级特征(步幅4或8),这些特征在物体定位方面比高级特征更精确(步幅≥16)。对于感受野(RF),最佳感受野大小覆盖输入样本图像z的约60%~80%。对于输出特征尺寸,观察到小尺寸(OFS≤3)不利于跟踪精度。

表1:AlexNet,VGG 10,Inception -22和ResNet-33上的网络内部因素分析。数字①- ⑩代表不同的版本,其中修改卷积内核大小,下采样层和填充以显示趋势。由于空间有限,补充材料中给出了有关修改的详细信息。

1.为了更好地显示趋势,我们将±0表示为网络的原始RF大小。+和-表示相对于原来的增大和减小尺寸。Max(127)表示最大有效RF,其与示例图像的大小相同,即127x127像素。

2.对于Inception网络,其RF大小位于一个范围内。这里我们只列出理论上的最大尺寸,与ResNet对齐进行比较。

表2:不同网络的内部因素:最后一层网络中的神经元的感受野(RF),步幅(STR),输出特征尺寸(OFS),填充(PAD)和宽度(W)。由于Inception在一个块中包含多个分支,因此其 RF位于一个范围内。

Siamese 框架将中心裁剪的图像对作为训练数据传入,其中目标对象始终存在于图像中心。如果输出单元的感受野延伸超出图像边界(受padding影响),网络模型学习位置产生偏差。图2给出了测试阶段中这种学习偏差的可视化示例。它显示当目标对象移动到图像边界时,其峰值不能精确指示目标的位置。这是由跟踪器漂移引起的常见情况。

图2:模型中学习的位置偏差的可视化

3. 方针

1.将步幅设定为4或8。

2.最佳感受野大小覆盖输入样本图像 z的约 60%~80%

3.在设计网络架构时,应将stride,感受野和输出特征尺寸视为一个整体。这三个因素并不是彼此独立的。如果一个改变,其他人将相应改变。将它们结合在一起可以帮助设计的网络在Siamese框架中提取更多的有判别力的特征。

4.对于全卷积的Siamese网络,删除padding操作重要。padding引起的位置偏差会降低孪生跟踪器的准确性和鲁棒性。

4. 内部裁剪残差(CIR)单元

残差单元(residual unit)是网络架构设计中的关键模块。它由3个堆叠的卷积层和绕过它们的快捷连接(shortcut connection)组成,如图3(a)所示。这三层是1×1,3×3和1×1个卷积,其中1×1层负责减少或恢复尺寸,使3×3层成为具有较小输入和输出尺寸的瓶颈(bottleneck)。此瓶颈卷积包括大小为1的zero-padding,以确保在添加之前兼容的输出大小。

图3:拟议的内部残余单位。(a)和(b)是残差单元和下采样单元(down sampling unit),而(a‘)和(b’)是我们提出的单位。(c)和(d)是建议的宽残差单元。灰色箭头表示便于信息传播的shortcut paths,而蓝色方框则突出显示与原始单位的差异。字母'p'和's'分别表示padding大小和步长。

CIR单元。如第3节所述,padding可能会在Siamese框架中引入位置偏差。为此我们增加残差单位进行裁剪操作,如图 3(a’)所示。裁剪操作会删除计算受zero-padding信号影响的特征,消除了残差单元中的padding影响特征。

下采样CIR(CIR-D)单元。它用于减少特征图的空间大小,同时使特征通道的数量加倍。下采样单元包含padding操作,如图 3(b)所示。因此,我们还修改其结构以消除由padding引起的负面影响。如图 3(b’)所示,我们在瓶颈层和shortcut connection中将卷积步幅从2改为1。插入裁剪以移除受padding影响的特征。最后,使用最大池化层来执行特征图的空间下采样。这些修改的关键思想是确保仅删除受填充影响的特征,同时保持内部块结构不变。

CIR-Inception和CIR-NeXt单元。根据Inception和ResNeXt,通过多个特征变换扩展CIR单元,生成CIR-Inception和CIR-NeXt 模块,如图 3(c-d)所示。具体来说,在CIR-Inception结构中,我们在shortcut connection中插入一个1x1卷积,并合并两个分支的特征。在CIR-ResNeXt中,我们将瓶颈层拆分为32个转换分支,并通过添加进行聚合。此外,对于CIR-Inception 和CIR-NeXt的下采样单元,修改与CIR-D(图 3(b’))中的修改相同,其中卷积步幅减小并且增加了最大池化层。

5. 网络架构 Network Architectures

通过堆叠上述CIR单元,我们构建了更深更宽的网络。首先确定stride,步幅8用于构建3级网络,而步幅4用于构建2级网络。然后,我们堆叠CIR单位。我们控制每个阶段的unit数量和下采样unit的位置。 目标是确保最后一层神经元的感受野大小位于有效范围内 ,即样本图像大小的 60%-80%。另外,当网络深度增加时,感受野可能超过该范围。因此,我们将步幅减半,以控制感受野。

更深的网络 。我们使用CIR和CIR-D单元构建更深的网络。这些结构类似于ResNet,但具有不同的stride,感受野和结构单元(building blocks)。

CIResNet-22有3个部分(stride=8),22个卷积层。除了第一个7×7卷积,其他都是CIR单位。在7×7卷积之后进行裁剪操作(大小为2)以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段,通过所提出的CIR-D单元执行下采样,该CIR-D单元位于该阶段的第一个块(共四个)。当feature map大小被下采样时,卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5,每个feature感受野的相应大小93×93。

构建CIResNet-43时进一步将网络深度增加到43层,设计为2个阶段,在 CIResNet-43的第二阶段,有14个块,其中第四个块具有用于特征下采样的 CIR-D 单元。

更宽的网络 。我们分别使用CIR-Inception和CIR-NeXt单元构建两种类型的宽网络体系结构。我们提供一个22层结构作为示例。正如表3所示,CIResInception-22和CIResNeXt-22具有与CIResNet-22类似的结构。但是通过多分支构建块,网络宽度分别增加了2倍和32倍。而且,由于多分支级联,在CIResInception-22中感受野大小变得多样化(即13~93)。

表3:用于连体跟踪器的设计骨干网络的架构。CIResNet-43中CIR-D位于'conv3'阶段的第四个块中,其他网络用于第一个块。

6. 实验

我们首先将我们更深更宽的网络与SiamFC和SiamRPN中的主干AlexNet进行比较。正如表4中所示,在OTB-13,OTB-15和VOT-17数据集上,我们提出的网络优于基线AlexNet。特别是,配备CIResIncep-22网络的 SiamFC 分别在OTB-2013和VOT-1上获得了比原始AlexNet高9.5%(AUC)和14.3%(EAO)的相对改进。同时,配备CIResNet-22的SiamRPN实现了4.4%和23.3%的相对改善。这验证了我们设计的体系结构解决了图1中所示的性能下降问题。此外,它还显示了我们提出的CIR单元对于连体网络的有效性。

学习更多编程知识,请关注我的公众号:

[代码的路]

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108374
  • 图像处理
    +关注

    关注

    29

    文章

    1352

    浏览量

    59781
  • CIR
    CIR
    +关注

    关注

    0

    文章

    2

    浏览量

    7272
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    行业洞察__工业远程监测的数字孪生与智能体协同:演进逻辑与选型策略

    行业洞察 | 工业远程监测的数字孪生与智能体协同:演进逻辑与选型策略 从“看得见”到“想得通”:当前工业远程监测的真实困境 去年在某沿海城市做试点时,我曾被这个问题折磨了整整一周。那是一个典型的工厂
    发表于 05-22 10:43

    安森美MBT3946DW1T1G与SMBT3946DW1T1G晶体管:通用应用的理想选择

    安森美MBT3946DW1T1G与SMBT3946DW1T1G晶体管:通用应用的理想选择 在电子设计领域,选择合适的晶体管对于实现高效、可靠的电路至关重要。安森美(onsemi
    的头像 发表于 05-21 16:10 68次阅读

    技术选型篇__数字孪生应用开发:端渲染与流渲染融合的工程适配与演进

    ”选型,已经成了制约数字孪生从演示走向常态化运营的最大瓶颈。 更深入一点看,问题不仅出在技术本身,更出在工程团队的协作模式上。在一个典型的智慧城市项目中,后端需要构建超大规模的城市模型,涉及海量的GIS
    发表于 05-13 13:56

    工业元宇宙中的数字孪生与智能体协同:如何根据业务阶段选择适配架构?

    工业元宇宙中的数字孪生与智能体协同:如何根据业务阶段选择适配架构? 谁在为“酷炫大屏”背后的无效决策买单? 去年在某沿海城市的智慧港口试点项目中,我曾被一个问题折磨了整整一周。客户花了海量预算建成
    发表于 05-13 13:50

    隆基BC技术亮相SIAM 2026摩洛哥国际农业展览会

    此前,4月20日-28日,第18届摩洛哥国际农业展览会(SIAM 2026)在梅克内斯盛大举行,本届展会积极响应国王穆罕默德六世的倡导,聚焦农业可持续发展。隆基携领先的BC技术重磅亮相,重点展示光伏技术如何精准解决农业场景痛点,并推出农业灌溉场景的高效光伏解决方案。
    的头像 发表于 05-08 16:43 408次阅读

    RTC实时时钟芯片和时钟晶振在本质、功能和角色完全不同

    RTC实时时钟芯片(Real-Time Clock)和时钟晶振(Crystal Oscillator)在电子系统中协同工作,但本质、功能和角色完全不同。
    的头像 发表于 03-11 17:13 761次阅读
    RTC实时时钟芯片和时钟晶振在本质、功能和角色完全不同

    RTC实时时钟的内部结构和选型方法

    在电子设备的世界里,RTC(Real-Time Clock,实时时钟)就像是一位不知疲倦的守时者。它的核心价值在于:即使主设备彻底断电关机,RTC也能依靠一颗小小的备用电池或超级电容继续运行,确保下次开机时系统时间依然准确,无需用户手动校对。
    的头像 发表于 02-10 11:36 1066次阅读
    RTC实时时钟的内部结构和选型方法

    爱普生RTC实时时钟模块的主要特点

    爱普生实时时钟模块(Real-Time Clock Module), 内置晶体振荡器、支持低功耗,并具备多功能系统所需的各种功能,例如唤醒定时器、电源切换和时间戳,同时实现低功耗且高精准的日期与时间管理。
    的头像 发表于 02-02 11:19 780次阅读
    爱普生RTC实时时钟模块的主要特点

    【瑞萨FPB-RA6E2试用】【瑞萨FPB-RA6E2】RTOS(Real-Time Operating System,实时操作系统)《线程》个人理解及项目实现

    【瑞萨FPB-RA6E2】RTOS(Real-Time Operating System,实时操作系统)《线程》个人理解及项目实现 1. RTOS(Real-Time Operating
    发表于 01-14 11:50

    NS3600 Real-time Macro Stitching

    显微镜
    jf_63802704
    发布于 :2025年12月05日 13:41:50

    嵌入式实时操作系统的特点

    实时嵌入式操作系统(Real-Time Embedded Operating System)是专门设计用于嵌入式系统的实时操作系统。嵌入式系统是一种特殊的计算机系统,通常是用于控制、监测或执行特定
    发表于 11-13 06:30

    恩智浦Real-time Edge软件v3.2版本的功能解读

    Real-time Edge Software是恩智浦提供的针对工业和物联网应用的一套软件集,面对工业和物联网垂直领域的具体需求,提供了针对性的实时系统、异构多核架构、异构多个SoC架构和工业网络的支持。
    的头像 发表于 10-10 10:30 1458次阅读
    恩智浦<b class='flag-5'>Real-time</b> Edge软件v3.2版本的功能解读

    如何选择合适的实时操作系统

    选择合适的实时操作系统(RTOS,Real-Time Operating System)可能会影响你在不同行业的职业发展路径。
    的头像 发表于 09-09 14:47 1353次阅读

    时间的力量:RTC如何赋能万物精准运行?

    这些我们习以为常的“准时”与“精确”,背后都依赖于电子设备的“时序基准源”——实时时钟(Real-Time Clock, RTC)。
    的头像 发表于 05-28 17:21 1088次阅读
    时间的力量:RTC如何赋能万物精准运行?

    802.11_Wireless_Networks

    802.11_Wireless_Networks
    发表于 05-28 14:02 15次下载