0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开放词汇检测新晋SOTA:地瓜机器人开源DOSOD实时检测算法

地瓜机器人 2025-01-08 15:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

计算机视觉领域,目标检测是一项关键技术,旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位,但近年来,开放词汇检测(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)崭露头角,为目标检测带来了新的活力与可能性。与闭集检测相比,开放词汇检测打破了检测类别固定的“枷锁”,它在训练时利用丰富多样的文本 - 区域对(text-region pairs)数据,将文本作为类别标签,大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中,能够起到极大的帮助。

目前主流的开放词汇检测算法有Grounding-DINO系列和YOLO-World。在海量的私有数据集的加持下,前者具有非常强大的检测能力,精度遥遥领先,其模型依赖参数量较大的Transformer结构,实时性较弱。后者依赖轻量级的Convolution结构,能够达到实时推理的效率,精度上依然不错。

DOSOD(Decoupled Open-Set Object Detection)是地瓜机器人最新发布的开放词汇目标检测算法,力求在低算力边缘端实现更高的推理效率,同时带来比YOLO-World更具竞争力的精度表现。在算法上,DOSOD采用了独特的解耦特征对齐策略,摒弃了传统的图像-文本交互方式,通过基于MLPs的特征适配模块对图像与文本的特征进行优化与对齐,进一步提升了模型的推理效率和精度。

实验结果显示,DOSOD在多个公开数据集(如LVIS)上的表现超越了YOLO-World-v2,并在边缘AI计算平台上展现了压倒性的效率优势。

wKgZPGd-J-yAGoSwAACJUwG6G7Q417.pngwKgZPGd-J-yAFdkCAADuErP-nd8054.png

文章开源地址:https://arxiv.org/abs/2412.14680

代码开源地址:https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜机器人应用算法部,中科院自动化所多模态人工智能系统全国重点实验室,苏州大学未来学院,上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理

wKgZO2d-J_iAWCzrAAE33dqtCyY933.png

目前主流的开放词汇检测对齐策略主要分为以下三种:

(a) 教师 - 学生蒸馏方法

  • 描述:利用 VLM(视觉语言模型)的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
  • 总结:通过 VLM 的文本编码器来指导图像和检测器特征的对齐。

(b) 基于交互的对齐策略

  • 描述:文本嵌入与检测器骨干网络提取的图像特征进行交互,以实现对齐。
  • 总结:通过文本嵌入与图像特征的交互来实现特征对齐。

(c) 提出的解耦对齐策略

  • 描述:在不进行交互的情况下对齐特征,通过视觉 - 语言特征适配来实现。
  • 总结:采用解耦方式,不依赖交互来进行特征对齐。

DOSOD(Decoupled Open-Set Object Detection) 属于第三种开放词汇检测对齐策略——解耦对齐策略。该方法的核心思想是通过将文本和图像模态的特征解耦,以实现更高效的对齐过程,从而在保证检测精度的同时大幅提升推理速度。

wKgZPGd-J-yAFdkCAADuErP-nd8054.png

在此基础上,DOSOD洞察到了闭集检测开放词汇检测之间的本质联系,提出了全新的结构框架(如上图所示)。具体来说,DOSOD将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作,从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中,类别标签文本首先通过一个文本编码器(来自VLM)生成初步的Text Embedding,然后经过一个基于MLPs的特征适应模块,对Text Embedding进行特征优化,为Joint Space中的对齐操作做准备。

在图像侧,DOSOD使用经典的单阶段目标检测器(文中使用了YOLOv8)来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后,在Joint Space中,通过计算Text Embedding与Region Feature之间的相似度,从而完成特征对齐。

DOSOD的实验结果

在实验部分,DOSOD在公开数据集上进行了预训练,并在LVISCOCO数据集上进行了Zero-shot验证。DOSOD均拥有优秀的精度表现:

  • 在LVIS数据集上,相较于YOLO-World-v2,DOSOD精度全面领先,并与YOLO-World-v1不分伯仲。
wKgZPGd-KCSALFMrAAIe5rvyLD8554.png
  • 在COCO数据集上,DOSOD整体精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上说明,COCO由于词汇丰富程度较低,不太适用于开放词汇检测任务评测。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.png

在推理速度上,通过将DOSODYOLO-WorldNVIDIA RTX 4090D-Robotics RDK X5上进行全面对比,我们可以看到:

  • DOSOD在主流的服务器级别的芯片上,推理效率是显著高于YOLO-World
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.pngwKgZPGd-KEOALx_OAAGP2zjV2sc218.png
  • 在边缘侧的AI计算平台上,DOSOD以碾压式的效率提升,远远超越YOLO-World
wKgZPGd-KDyAMKDDAAFpUcnVdy8314.png

DOSOD的应用效果

DOSOD开放词汇检测算法有着广泛的应用场景,既能用于常规检测任务里的目标检测,也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型,只需收集少量相关数据进行微调,就能显著提高模型的稳定性和检测效果。

  • DOSOD 在常规目标检测上的检测效果

在闭集目标检测任务中,COCO数据集预先定义了80个固定类别。我们可以看到,在经过大数据量的开放词汇数据集预训练后,DOSOD能够检测出诸多长尾类别,如图2左下角的“heater”,图4中的“shoe”和“wheel”,而这些词汇并未包含在COCO数据集的80个类别之内。

wKgZPGd-KGuAD2btABTSXQElOvM312.png
  • DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像,任务要求是检测出地面上的各类污渍或障碍物,这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调,DOSOD成功识别了这些特殊类别,为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

wKgZO2d-KHiAbTY1AA2qnxQlJ6M949.pngwKgZO2d-KHyAWxULAAs0BhJTdr4300.pngwKgZO2d-KICAQBnfAArijXABNDw183.pngwKgZO2d-KIeAahcBAAljeeMwkGw740.png

DOSOD作为一款新兴的开放词汇检测算法,凭借创新的解耦特征对齐策略,在提升推理效率的同时,成功地保证了精度,展示出了极强的应用潜力。未来,随着计算资源的提升与算法的不断优化,DOSOD有望在机器人、自动驾驶智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果,DOSOD不仅在精度上超越了对标方法,更成功解决了推理效率与低算力设备适应性之间的挑战,为智能机器人技术的普及与发展提供了有力支持。

未来,地瓜机器人将秉承“成为机器人时代的Wintel”的品牌初心,持续与客户一同深入应用场景,在提供拥有极致性能表现的硬件的同时,为行业客户和开发者提供丰富的具有实用价值的算法,加速机器人技术的落地和广泛应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30590

    浏览量

    219622
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97147
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261566
  • RDK
    RDK
    +关注

    关注

    0

    文章

    26

    浏览量

    9349
  • 地瓜机器人
    +关注

    关注

    0

    文章

    29

    浏览量

    352
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    打造机器人母生态!一年开发者数量翻倍,地瓜机器人发布具身智能大算力开发平台

    电子发烧友网报道(文/莫婷婷)2025年11月21日,在地瓜机器人举办的DDC2025开发者大会上,地瓜机器人CEO王丛宣布了一组令人瞩目的数据:公司全年出货量同比增长超180%,客户
    的头像 发表于 11-27 09:16 6842次阅读
    打造<b class='flag-5'>机器人</b>母生态!一年开发者数量翻倍,<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>发布具身智能大算力开发平台

    广和通亮相DDC 2025地瓜机器人开发者大会

    11月21日,DDC2025地瓜机器人开发者大会在深圳顺利举行。大会汇聚来自机器人全产业链的技术团队、生态伙伴与开发者,共同探讨机器人技术的创新趋势与未来应用。作为
    的头像 发表于 11-26 15:49 220次阅读
    广和通亮相DDC 2025<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>开发者大会

    奥比中光与地平线、地瓜机器人达成战略合作

    8月11日,奥比中光与地平线及其控股子公司地瓜机器人在北京签订合作协议,双方将在机器人智能化领域展开深度合作,充分发挥各自的技术与产品优势,携手推动机器人产业的技术创新与落地应用。奥比
    的头像 发表于 08-12 11:31 1956次阅读

    汽车制造车间检测机器人与PLC无线以太网实时控制方案

    检测机器人通过传感器、视觉系统和软件算法采集数据后,将信息传输到就地PLC控制系统中,以实现人机交互、实时监控、数据分析、工艺优化以及生产流程闭环控制。现计划在总装车间内,为4台
    的头像 发表于 07-05 15:45 532次阅读
    汽车制造车间<b class='flag-5'>检测</b><b class='flag-5'>机器人</b>与PLC无线以太网<b class='flag-5'>实时</b>控制方案

    算控一体新物种发布!百TOPS算力,地瓜为具身机器人量产“夯地基”

        电子发烧友网(文/莫婷婷)近期,地瓜机器人正式发布了RDK S100算控一体化机器人开发套件,采用大小脑超级异构,提供80TOPS和128TOPS的算力组合。RDK S100将与
    的头像 发表于 06-18 09:09 1.7w次阅读
    算控一体新物种发布!百TOPS算力,<b class='flag-5'>地瓜</b>为具身<b class='flag-5'>机器人</b>量产“夯地基”

    盘点#机器人开发平台

    地瓜机器人RDK X5开发套件地瓜机器人RDK X5开发套件产品介绍 旭日5芯片10TOPs算力-电子发烧友网机器人开发套件 Kria KR
    发表于 05-13 15:02

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    。 学习建议 对于初学者,建议先通过仿真(如Gazebo)验证算法,再迁移到真实机器人,以降低硬件调试成本。 多参与开源社区(如ROS2的GitHub项目),学习前沿技术并贡献代码,是快速提升实战能力
    发表于 05-03 19:41

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    末端执行器。 全栈开源 从RISC-V指令集、芯片SDK到机器人控制代码100%开放,开发者可自由定制算法与控制逻辑。 官方apt仓库提供deepseek-r1-distill-qwe
    发表于 04-25 17:59

    地瓜机器人RDK X5 规格书与地瓜机器人RDK X5原理图

    地瓜机器人是芯片公司地平线成立的全资控股子公司。专注于机器人市场的软硬件通用底座提供商。地瓜机器人以旭日智能计算芯片和 RDK
    的头像 发表于 04-21 19:01 2525次阅读
    <b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>RDK X5 规格书与<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>RDK X5原理图

    大象机器人推出myCobot 280 RDK X5,携手地瓜机器人共建智能教育机

    摘要大象机器人全新推出轻量级高性能教育机械臂myCobot280RDKX5,该产品集成地瓜机器人RDKX5开发者套件,深度整合双方在硬件研发与智能计算领域的技术优势,实现芯片架构、软件算法
    的头像 发表于 04-15 22:05 1099次阅读
    大象<b class='flag-5'>机器人</b>推出myCobot 280 RDK X5,携手<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>共建智能教育机

    轩辕智驾红外目标检测算法在汽车领域的应用

    在 AI 技术蓬勃发展的当下,目标检测算法取得了重大突破,其中红外目标检测算法更是在汽车行业掀起了波澜壮阔的变革,从根本上重塑着汽车的安全性能、驾驶体验与产业生态。
    的头像 发表于 03-27 15:55 747次阅读

    地瓜机器人,和全球机器人开发者交朋友

    前言自2024年9月20日在国内官宣以来,地瓜机器人(D-Robotics)正在以行业领军者的角色,开放姿态拥抱全球机遇,致力于和全球机器人开发者交朋友。短短半年间,从亚洲的东京、首尔
    的头像 发表于 03-24 15:27 1370次阅读
    <b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>,和全球<b class='flag-5'>机器人</b>开发者交朋友

    开启报名!地瓜机器人-全国大学生嵌入式芯片与系统设计竞赛赛题发布

    1公司介绍公司简介起步于2015年诞生的地平线,地瓜机器人是业界领先的机器人软硬件通用底座提供商。承载着「成为机器人时代的Wintel」的品牌初心,
    的头像 发表于 03-13 22:33 1288次阅读
    开启报名!<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>-全国大学生嵌入式芯片与系统设计竞赛赛题发布

    破解透明物体抓取难题,地瓜机器人 CASIA 推出几何和语义融合的单目抓取方案|ICRA 2025

    近日,全球机器人领域顶会ICRA 2025(IEEE机器人与自动化国际会议)公布论文录用结果,地瓜机器人主导研发的DOSOD
    的头像 发表于 03-05 19:30 1255次阅读
    破解透明物体抓取难题,<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b> CASIA 推出几何和语义融合的单目抓取方案|ICRA 2025

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    具身智能机器人的基础模块,这个是本书的第二部分内容,主要分为四个部分:机器人计算系统,自主机器人的感知系统,自主机器人的定位系统,自主机器人
    发表于 01-04 19:22