0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何学习基于Tansformer的目标检测算法呢?

3D视觉工坊 来源:3D视觉工坊 2023-08-07 16:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

说到纯视觉的自动驾驶方案,大家第一个想到的就是Tesla吧。的确,早在2021年,Tesla就已经实现了纯视觉的BEV检测方案,而且效果非常好。

240e9aa2-32e1-11ee-9e74-dac502259ad0.png

细心的同学可能发现了,这套BEV方案中将相机空间的图像转换到BEV空间的核心组件就是Transformer。

Transformer来源于自然语言处理领域,首先被应用于机器翻译。后来,大家发现它在计算机视觉领域效果也很不错,而且在各大排行榜上碾压CNN网络。

2435d4a0-32e1-11ee-9e74-dac502259ad0.png

目标检测领域中,视觉Transformer不仅可以实现2D检测、3D检测,还可以实现多模态检测,BEV视角下的检测,性能也非常出色。

245b52ac-32e1-11ee-9e74-dac502259ad0.png

因此,掌握Transformer相关知识和工程基础成为了企业招聘算法工程师的一个技能要求点,也是简历上的一个很大的加分项。

然而,想要掌握基于Transformer的目标检测算法,有以下3个难点

理解Transformer背后的理论基础,比如自注意力机制(self-attention), 位置编码(positional embedding),目标查询(object query)等等,网上的资料比较杂乱,不够系统,难以通过自学做到深入理解并融会贯通。

2475f544-32e1-11ee-9e74-dac502259ad0.png

掌握基于Transformer的目标检测算法的思路和创新点,一些Transformer论文涉及的新概念比较多,话术没有那么通俗易懂,读完论文仍然不理解算法的细节部分。

24a3cd02-32e1-11ee-9e74-dac502259ad0.png2

Transformer代码不易看懂,因为作用机制与CNN有不少差别,所以完全理解代码并实践应用需要花费很大功夫。

24c35ec4-32e1-11ee-9e74-dac502259ad0.png3

那么如何学习基于Tansformer的目标检测算法呢?

实践部分

24d6a84e-32e1-11ee-9e74-dac502259ad0.png24fc84a6-32e1-11ee-9e74-dac502259ad0.png






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47759
  • 自动驾驶
    +关注

    关注

    795

    文章

    15056

    浏览量

    181991
  • Transformer
    +关注

    关注

    0

    文章

    156

    浏览量

    6974

原文标题:Transformer在自动驾驶中的应用前景怎么样?

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RetinaNet深度学习模型突破航空图像目标检测难题

    的深度学习模型交出了亮眼的答卷——它让One-stage检测器超越了传统Two-stage方法的精度,成为了航空图像分析领域的重要工具。
    的头像 发表于 05-15 09:23 1237次阅读
    RetinaNet深度<b class='flag-5'>学习</b>模型突破航空图像<b class='flag-5'>目标</b><b class='flag-5'>检测</b>难题

    新一代单目标 AI 跟踪算法,解决典型困难场景下的跟踪稳定性问题

    作为具备算法定制开发的公司,成都慧视之前的目标跟踪算法均是采用相关跟踪,通过在线更新分类模型来实现目标的定位跟踪。即以当前帧目标区域为正样本
    的头像 发表于 03-17 17:59 802次阅读
    新一代单<b class='flag-5'>目标</b> AI 跟踪<b class='flag-5'>算法</b>,解决典型困难场景下的跟踪稳定性问题

    瑞芯微(EASY EAI)RV1126B 车辆检测

    1.车辆检测简介车辆检测是一种基于深度学习的对人进行检测定位的目标检测,能广泛的用于园区管理、交
    的头像 发表于 01-16 15:02 8457次阅读
    瑞芯微(EASY EAI)RV1126B 车辆<b class='flag-5'>检测</b>

    瑞芯微(EASY EAI)RV1126B 安全帽检测

    是一种基于深度学习的对人进行检测定位的目标检测,能有效用于产品落地。本安全帽检测算法在数据集表现如下所示基于EASY-EAI-Nano-TB
    的头像 发表于 01-15 09:57 8474次阅读
    瑞芯微(EASY EAI)RV1126B 安全帽<b class='flag-5'>检测</b>

    瑞芯微(EASY EAI)RV1126B 火焰检测

    1.火焰检测简介火焰检测是一种基于深度学习的对火焰进行检测定位的目标检测。基于大规模火焰数据识别
    的头像 发表于 01-13 11:52 7822次阅读
    瑞芯微(EASY EAI)RV1126B 火焰<b class='flag-5'>检测</b>

    瑞芯微(EASY EAI)RV1126B 人员检测使用

    1.人员检测简介人员检测是一种基于深度学习的对人进行检测定位的目标检测,能广泛的用于安防、生产安
    的头像 发表于 01-11 14:30 3767次阅读
    瑞芯微(EASY EAI)RV1126B 人员<b class='flag-5'>检测</b>使用

    Melexis推出针对FIR阵列的免费版人员检测算法

    全球微电子工程公司Melexis宣布,重磅推出专为MLX90642(FIR) 32×24热传感器阵列设计的新型人员检测算法,可实现人员检测、精确计数以及位置定位。与传统摄像头相比,该解决方案在保护
    的头像 发表于 12-15 17:30 668次阅读

    电压放大器在全导波场图像目标识别的损伤检测实验的应用

    图像目标识别的智能损伤检测方法,通过结合超声导波检测技术与深度学习算法,系统探究了损伤引起的波场畸变特性及其识别机制。 测试设备:扫描激光多
    的头像 发表于 12-02 11:37 433次阅读
    电压放大器在全导波场图像<b class='flag-5'>目标</b>识别的损伤<b class='flag-5'>检测</b>实验的应用

    机器视觉助力FPD 面板检测

    FPD面板光学检测,需要在工业相机上使用图像识别和检测算法检测缺陷和异常。
    的头像 发表于 09-26 16:09 912次阅读
    机器视觉助力FPD 面板<b class='flag-5'>检测</b>

    技术分享 | RK3588基于Yolov5的目标识别演示

    YOLO是一种基于深度神经网络的目标检测算法,用在图像或视频中实时识别和定位多个对象。在其各个版本的迭代中,YOLOv5凭借易用性和性能平衡在工业、医疗、农业、零售等领域被广泛的应用。本文以启扬
    的头像 发表于 09-18 17:27 1516次阅读
    技术分享 | RK3588基于Yolov5的<b class='flag-5'>目标</b>识别演示

    有哪些常见的AI算法可以用于装置数据的异常检测

    在装置数据(如工业设备传感器数据、电子装置运行参数、化工装置工况数据等)的异常检测中,AI 算法的选择需结合数据特点(如 时序性、维度、标注情况 )、检测目标(如实时性、精度、可解释性
    的头像 发表于 09-18 09:27 1209次阅读
    有哪些常见的AI<b class='flag-5'>算法</b>可以用于装置数据的异常<b class='flag-5'>检测</b>?

    PID控制算法学习笔记资料

    用于新手学习PID控制算法
    发表于 08-12 16:22 7次下载

    基于FPGA的SSD目标检测算法设计

    随着人工智能的发展,神经网络正被逐步应用于智能安防、自动驾驶、医疗等各行各业。目标识别作为人工智能的一项重要应用也拥有着巨大的前景,随着深度学习的普及和框架的成熟,卷积神经网络模型的识别精度越来越高
    的头像 发表于 07-10 11:12 2860次阅读
    基于FPGA的SSD<b class='flag-5'>目标</b><b class='flag-5'>检测算法</b>设计

    【嘉楠堪智K230开发板试用体验】K230机器视觉相关功能体验

    画图 机器学习模型在通过摄像头获取图像后,经过处理输入后,在输出环节通常还需要进行后处理,例如图像检测应用中,目标位置的框选等。 在K230中提供了画图的功能,可以实现画线段、画矩形、画圆、画箭头
    发表于 07-08 17:25

    基于LockAI视觉识别模块:C++目标检测

    检测是计算机视觉领域中的一个关键任务,它不仅需要识别图像中存在哪些对象,还需要定位这些对象的位置。具体来说,目标检测算法会输出每个检测到的对象的边界框(Bounding Box)以及其
    发表于 06-06 14:43