0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开放词汇检测新晋SOTA:地瓜机器人开源DOSOD实时检测算法

地瓜机器人 2025-01-08 15:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

计算机视觉领域,目标检测是一项关键技术,旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位,但近年来,开放词汇检测(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)崭露头角,为目标检测带来了新的活力与可能性。与闭集检测相比,开放词汇检测打破了检测类别固定的“枷锁”,它在训练时利用丰富多样的文本 - 区域对(text-region pairs)数据,将文本作为类别标签,大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中,能够起到极大的帮助。

目前主流的开放词汇检测算法有Grounding-DINO系列和YOLO-World。在海量的私有数据集的加持下,前者具有非常强大的检测能力,精度遥遥领先,其模型依赖参数量较大的Transformer结构,实时性较弱。后者依赖轻量级的Convolution结构,能够达到实时推理的效率,精度上依然不错。

DOSOD(Decoupled Open-Set Object Detection)是地瓜机器人最新发布的开放词汇目标检测算法,力求在低算力边缘端实现更高的推理效率,同时带来比YOLO-World更具竞争力的精度表现。在算法上,DOSOD采用了独特的解耦特征对齐策略,摒弃了传统的图像-文本交互方式,通过基于MLPs的特征适配模块对图像与文本的特征进行优化与对齐,进一步提升了模型的推理效率和精度。

实验结果显示,DOSOD在多个公开数据集(如LVIS)上的表现超越了YOLO-World-v2,并在边缘AI计算平台上展现了压倒性的效率优势。

wKgZPGd-J-yAGoSwAACJUwG6G7Q417.pngwKgZPGd-J-yAFdkCAADuErP-nd8054.png

文章开源地址:https://arxiv.org/abs/2412.14680

代码开源地址:https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜机器人应用算法部,中科院自动化所多模态人工智能系统全国重点实验室,苏州大学未来学院,上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理

wKgZO2d-J_iAWCzrAAE33dqtCyY933.png

目前主流的开放词汇检测对齐策略主要分为以下三种:

(a) 教师 - 学生蒸馏方法

  • 描述:利用 VLM(视觉语言模型)的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
  • 总结:通过 VLM 的文本编码器来指导图像和检测器特征的对齐。

(b) 基于交互的对齐策略

  • 描述:文本嵌入与检测器骨干网络提取的图像特征进行交互,以实现对齐。
  • 总结:通过文本嵌入与图像特征的交互来实现特征对齐。

(c) 提出的解耦对齐策略

  • 描述:在不进行交互的情况下对齐特征,通过视觉 - 语言特征适配来实现。
  • 总结:采用解耦方式,不依赖交互来进行特征对齐。

DOSOD(Decoupled Open-Set Object Detection) 属于第三种开放词汇检测对齐策略——解耦对齐策略。该方法的核心思想是通过将文本和图像模态的特征解耦,以实现更高效的对齐过程,从而在保证检测精度的同时大幅提升推理速度。

wKgZPGd-J-yAFdkCAADuErP-nd8054.png

在此基础上,DOSOD洞察到了闭集检测开放词汇检测之间的本质联系,提出了全新的结构框架(如上图所示)。具体来说,DOSOD将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作,从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中,类别标签文本首先通过一个文本编码器(来自VLM)生成初步的Text Embedding,然后经过一个基于MLPs的特征适应模块,对Text Embedding进行特征优化,为Joint Space中的对齐操作做准备。

在图像侧,DOSOD使用经典的单阶段目标检测器(文中使用了YOLOv8)来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后,在Joint Space中,通过计算Text Embedding与Region Feature之间的相似度,从而完成特征对齐。

DOSOD的实验结果

在实验部分,DOSOD在公开数据集上进行了预训练,并在LVISCOCO数据集上进行了Zero-shot验证。DOSOD均拥有优秀的精度表现:

  • 在LVIS数据集上,相较于YOLO-World-v2,DOSOD精度全面领先,并与YOLO-World-v1不分伯仲。
wKgZPGd-KCSALFMrAAIe5rvyLD8554.png
  • 在COCO数据集上,DOSOD整体精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上说明,COCO由于词汇丰富程度较低,不太适用于开放词汇检测任务评测。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.png

在推理速度上,通过将DOSODYOLO-WorldNVIDIA RTX 4090D-Robotics RDK X5上进行全面对比,我们可以看到:

  • DOSOD在主流的服务器级别的芯片上,推理效率是显著高于YOLO-World
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.pngwKgZPGd-KEOALx_OAAGP2zjV2sc218.png
  • 在边缘侧的AI计算平台上,DOSOD以碾压式的效率提升,远远超越YOLO-World
wKgZPGd-KDyAMKDDAAFpUcnVdy8314.png

DOSOD的应用效果

DOSOD开放词汇检测算法有着广泛的应用场景,既能用于常规检测任务里的目标检测,也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型,只需收集少量相关数据进行微调,就能显著提高模型的稳定性和检测效果。

  • DOSOD 在常规目标检测上的检测效果

在闭集目标检测任务中,COCO数据集预先定义了80个固定类别。我们可以看到,在经过大数据量的开放词汇数据集预训练后,DOSOD能够检测出诸多长尾类别,如图2左下角的“heater”,图4中的“shoe”和“wheel”,而这些词汇并未包含在COCO数据集的80个类别之内。

wKgZPGd-KGuAD2btABTSXQElOvM312.png
  • DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像,任务要求是检测出地面上的各类污渍或障碍物,这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调,DOSOD成功识别了这些特殊类别,为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

wKgZO2d-KHiAbTY1AA2qnxQlJ6M949.pngwKgZO2d-KHyAWxULAAs0BhJTdr4300.pngwKgZO2d-KICAQBnfAArijXABNDw183.pngwKgZO2d-KIeAahcBAAljeeMwkGw740.png

DOSOD作为一款新兴的开放词汇检测算法,凭借创新的解耦特征对齐策略,在提升推理效率的同时,成功地保证了精度,展示出了极强的应用潜力。未来,随着计算资源的提升与算法的不断优化,DOSOD有望在机器人、自动驾驶智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果,DOSOD不仅在精度上超越了对标方法,更成功解决了推理效率与低算力设备适应性之间的挑战,为智能机器人技术的普及与发展提供了有力支持。

未来,地瓜机器人将秉承“成为机器人时代的Wintel”的品牌初心,持续与客户一同深入应用场景,在提供拥有极致性能表现的硬件的同时,为行业客户和开发者提供丰富的具有实用价值的算法,加速机器人技术的落地和广泛应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31700

    浏览量

    224670
  • 算法
    +关注

    关注

    23

    文章

    4817

    浏览量

    98884
  • 人工智能
    +关注

    关注

    1821

    文章

    50551

    浏览量

    267978
  • RDK
    RDK
    +关注

    关注

    0

    文章

    26

    浏览量

    9458
  • 地瓜机器人
    +关注

    关注

    1

    文章

    33

    浏览量

    447
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人形机器人关节扭矩传感器的详细应用场景及解决方案

    详细应用场景 高精度力控与柔顺操作(上肢与手部) 场景描述:机器人需要抓取鸡蛋、拧螺丝、装配精密零件或使用人类工具。若仅靠位置控制,极易损坏物体或自身。 传感器作用 :实时感知末端工具与工件接触
    发表于 05-20 17:40

    基于米尔RK3576核心板的国产割草机器人解决方案

    。 国产算法兼容 :支持与国内SLAM方案商(如科沃斯、追觅等生态伙伴)的算法快速适配,缩短产品落地周期。 3. 执行层:实时控制与丰富接口 割草机器人的底盘运动控制需要极低且确定性的
    发表于 04-24 17:31

    为什么说关节扭矩传感器是高端机器人的“触觉神经”?

    。有了扭矩传感器,机器人实时检测力的大小和方向,自动调整姿态。例如,在人形机器人的腿部关节,传感器以1千赫兹的频率感知地面反作用力,瞬间调整输出扭矩,实现稳定行走和上下斜坡。2. 安
    发表于 04-17 17:27

    打造机器人母生态!一年开发者数量翻倍,地瓜机器人发布具身智能大算力开发平台

    电子发烧友网报道(文/莫婷婷)2025年11月21日,在地瓜机器人举办的DDC2025开发者大会上,地瓜机器人CEO王丛宣布了一组令人瞩目的数据:公司全年出货量同比增长超180%,客户
    的头像 发表于 11-27 09:16 8381次阅读
    打造<b class='flag-5'>机器人</b>母生态!一年开发者数量翻倍,<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>发布具身智能大算力开发平台

    广和通亮相DDC 2025地瓜机器人开发者大会

    11月21日,DDC2025地瓜机器人开发者大会在深圳顺利举行。大会汇聚来自机器人全产业链的技术团队、生态伙伴与开发者,共同探讨机器人技术的创新趋势与未来应用。作为
    的头像 发表于 11-26 15:49 667次阅读
    广和通亮相DDC 2025<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>开发者大会

    具身智能大算力开发平台S600重磅亮相,地瓜机器人引领端云一体机器人进化新范式

    11月21日,以“无FUN不起浪”为主题的DDC2025地瓜机器人开发者大会在深圳成功举办。作为业界领先的机器人软硬件通用底座提供商,地瓜机器人
    发表于 11-21 22:21 1704次阅读
    具身智能大算力开发平台S600重磅亮相,<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>引领端云一体<b class='flag-5'>机器人</b>进化新范式

    高精度机器人控制的核心——基于 MYD-LT536 开发板的精密运动控制方案

    ,MYD-LT536 具备以下突出优势: 1. 高算力与实时性兼顾 四核 Cortex-A55 架构可并行运行多线程控制任务,满足多轴机器人同步控制与动态补偿算法实时计算需求; T5
    发表于 11-14 15:48

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    引擎,访问并显示米尔官方网页,承担人机信息查询与交互角色。· MINI DP接口(27寸显示器):实时显示8路摄像头捕捉的图像预览,充当机器人的"视觉监控中心"
    发表于 10-29 16:41

    机器视觉检测PIN针

    物理损伤)必须进行极其精密的测量与核查。以往依赖眼的检测方式存在明显短板:不仅作业速度慢、受人员状态影响大(易疲劳导致误判),而且在面对日益严苛的微米级精度标准时显得力不从心。相比之下,基于机器视觉
    发表于 09-26 15:09

    奥比中光与地平线、地瓜机器人达成战略合作

    8月11日,奥比中光与地平线及其控股子公司地瓜机器人在北京签订合作协议,双方将在机器人智能化领域展开深度合作,充分发挥各自的技术与产品优势,携手推动机器人产业的技术创新与落地应用。奥比
    的头像 发表于 08-12 11:31 2588次阅读

    开源鸿蒙驱动机器人与AI产业生态发展,M-Robots OS正式开源

    7月24日,2025开放原子开源生态大会——开源鸿蒙助力机器人与人工智能产业生态发展论坛在北京顺利举行,本次分论坛聚焦机器人和人工智能产业生
    的头像 发表于 07-26 14:20 1492次阅读
    <b class='flag-5'>开源</b>鸿蒙驱动<b class='flag-5'>机器人</b>与AI产业生态发展,M-Robots OS正式<b class='flag-5'>开源</b>

    全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式开源

    机器人操作系统M-RobotsOS,推动机器人行业生态融合、能力复用、智能协同。构建机器人共通语言解决产业协同难题机器人行业正面临两大关键挑战:一方面,传统通用操
    的头像 发表于 07-24 10:56 1322次阅读
    全国首个<b class='flag-5'>开源</b>鸿蒙<b class='flag-5'>机器人</b>操作系统 M-Robots OS 正式<b class='flag-5'>开源</b>

    江智机器人公司自制的常用机器人及其主要零部件检测装备

    1宗旨江智机器人公司自2016年开始生产机器人至今近10年,已根据自己机器人实际订单需要,自行研制开发生产了机器人以及主要零部件的出厂检验用检测
    的头像 发表于 07-13 19:28 1858次阅读
    江智<b class='flag-5'>机器人</b>公司自制的常用<b class='flag-5'>机器人</b>及其主要零部件<b class='flag-5'>检测</b>装备

    汽车制造车间检测机器人与PLC无线以太网实时控制方案

    检测机器人通过传感器、视觉系统和软件算法采集数据后,将信息传输到就地PLC控制系统中,以实现人机交互、实时监控、数据分析、工艺优化以及生产流程闭环控制。现计划在总装车间内,为4台
    的头像 发表于 07-05 15:45 834次阅读
    汽车制造车间<b class='flag-5'>检测</b><b class='flag-5'>机器人</b>与PLC无线以太网<b class='flag-5'>实时</b>控制方案

    算控一体新物种发布!百TOPS算力,地瓜为具身机器人量产“夯地基”

        电子发烧友网(文/莫婷婷)近期,地瓜机器人正式发布了RDK S100算控一体化机器人开发套件,采用大小脑超级异构,提供80TOPS和128TOPS的算力组合。RDK S100将与
    的头像 发表于 06-18 09:09 1.9w次阅读
    算控一体新物种发布!百TOPS算力,<b class='flag-5'>地瓜</b>为具身<b class='flag-5'>机器人</b>量产“夯地基”