0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拒绝“人工智障”!VLM让RDK X5机器狗真正听懂“遛弯”和“避障

地瓜机器人 2025-03-28 18:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

项目思路

wKgZPGfmgJGAEooTAAqFyEoj568946.png

现有跨形态机器人控制需为不同硬件单独设计策略,开发成本高且泛化性差。本课题尝试使用语言指令统一接口,用户用自然语言指挥不同形态机器人完成同一任务,通过分层强化学习框架,高层视觉语言模型(VLM)解析任务生成中间指令,再通过低层强化学习策略适配不同形态的底层动作,通过仿真器快速训练跨形态通用策略,最后部署到真机运行——田和坤 、冯紫嫣 、殷孟浩

现有跨形态机器人(如四足、轮式、人形)控制通常需为不同硬件单独设计策略,开发成本高且泛化性差。本课题提出一种基于语言-视觉分层强化学习的跨形态机器人通用控制架构,旨在通过自然语言指令统一接口,实现多形态机器人的任务适配与高效控制。具体而言,高层视觉语言模型(VLM)解析用户指令并生成标准化中间指令(如“左转30度”),低层强化学习策略则根据机器人形态参数化编码,将中间指令映射为具体形态的底层动作(如四足步态或轮式转向)。通过NVIDIA Isaac Sim仿真器快速训练跨形态通用策略,并结合X5 RDK人形机器人及四足机器人进行真机验证,本课题展示了同一语言指令在不同形态机器人上的高效执行能力。实验结果表明,该框架在动态避障、复杂地形适应及任务重规划等方面具有显著优势,为跨形态机器人控制提供了一种低成本、高泛化的解决方案。

拟采用技术方案

拟采用分层强化学习架构,使用高层VLM完成从图像与自然语言输入到标准化中间指令的输出的转换,再使用底层RL策略完成最终动作序列的生成。采用mujoco+多形态机器人模型进行仿真验证,最终尝试跨机器人平台的真机部署。

预期展示效果

仿真环境下完成同一指令“绕过障碍物进入右侧房间”驱动四足/轮式机器人进行不同路径规划与动作执行,真机使用自己搭建轮式小车+Petoi Bittle进行展示。后续增加更多语言交互。

X5 RDK用法

整合X5的RGB摄像头、IMU数据,输入高层VLM和低层策略,通过ROS2桥接,接收低层策略输出的关节目标角度,转换为电机控制指令。

仿真器验证内容

训练四足策略后,冻结高层VLM,仅微调低层进行人形机器人与轮式机器人的适配。仿真环境中随机生成障碍物、地形起伏、光照变化,验证策略鲁棒性,同时对比端到端的RL策略的效率与所需算力差异。

真机演示内容

轮式机器人执行“沿走廊前进,在第二个门口右转”,足式机器人完成“避开地面杂物,将指定物品放置到指定位置”。

项目预算

一台用于强化训练的工程机(或云服务器算力支持),3D打印,舵机升级电机(待定)

项目进度与计划

仿真方面目前已完成仿真环境的搭建与模型构建,后续会注重数据获取、强化训练与真机部署。

方案验证

高层VLM

目标:完成自然语言到中间动作指令的转化,在简单任务(如移动)上不依赖机器人特定形态。

使用VLM完成Navigation任务,实则更接近VLA而不是VLN,前者更关注场景内容理解与交互,后者则专注于路径规划。

采用开源VLM模型微调。

  1. openVLA:直接输出端到端数据,依赖特定形态,不适用
  2. LLaVA:本地部署7B模型,对空间感知太差,且运行速度达不到要求(约1item/min)
wKgZO2fmgJKAblO5AB_koZv_KBc842.png
  1. Qwen-72B:直接暴力增加参数数量,缺点是无法本地部署,优点是在特定场景效果较好,不需要微调即可进行一定程度的空间感知:
wKgZO2fmgJGAa6q-ABZXbTlOh7Y325.png


  1. 对Qwen-72B进行数据采集并微调:前后手动拍摄了80+场景照片与对应描述prompt,使用官方api进行微调,可惜微调后的模型部署太贵(160r/h),最终放弃。

转变方案:不要求VLM实现精确的位置估计(尤其是不使用深度相机的情况下),而是粗略判断距离,输出下一步的任务指令。这样原生的Qwen-72B就可以实现了。

低层PPO

目标:完成中间动作指令到机器人关节角度与力矩的转化,可能的情况下实现这部分的跨形态(未验证,需要解决变长输出的问题)。
RL主要针对四足机器人,实现一个基于Stable-Baselines3的mujoco仿真环境进行训练。基本要求是保持平稳的情况下直走、转弯,考虑到VLM频率很低(1item/s),后续需要加一个速度的跟踪用来实时避障,这部分也由RL实现。

项目进度

  • week1:仿真场景搭建,足式、轮式机器人建模与控制测试
wKgZPGfmgJKAZ5QKACWLqJLNldQ221.png
  • week2:搭建高层VLM,完成多模态控制目标输入,实现生成中间指令正确率>80%,X5RDK完成轮式sim2real优化与演示
wKgZPGfmgJKAEvwXAD5-P_Q9wLs389.png
  • week3:部署低层四足PPO策略训练仿真,初步完成跨形态任务测试
    2.20仿真:
wKgZO2fmgJKAKckOAAbymKOvR3c184.png


  • 2.21实机:

wKgZPGfmgJOAWdk2ABedZWfL81A002.png
  • week4:尝试3dgs场景下的高精度仿真
wKgZO2fmgJOASttvADK6171Ro2k401.png
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30594

    浏览量

    219635
  • 人工智能
    +关注

    关注

    1813

    文章

    49742

    浏览量

    261577
  • 机器狗
    +关注

    关注

    3

    文章

    184

    浏览量

    10886
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【KittenBot机器人试用申请】KittenBot绘图机器人学习课程

    项目名称:KittenBot绘图机器人学习课程试用计划:1、申请理由:本人为一名高中老师,业余喜欢学习arduino,希望借此机会培养学生的编程能力与动手能力2、项目名称:KittenBot绘图
    发表于 07-07 18:05

    解读机器人的几大技术

    趋势。另一方面,仅依靠视觉传感器的导航方案也是目前学术界的一大研究热点,其背后能有效的降低传感器成本也是推动因素之一。随着计算机技术、传感器技术、人工智能的发展、移动机器及自主导
    发表于 12-12 16:04

    基于人工神经网络实现智能机器人的轨迹控制

    基于人工神经网络实现智能机器人的轨迹控制!资料来源网络,如有侵权,敬请见谅
    发表于 11-30 11:33 48次下载

    基于模糊改进人工势场法的机器方法研究_游文洋

    基于模糊改进人工势场法的机器方法研究_游文洋
    发表于 03-22 09:11 0次下载

    如何进行简易机器人的设计

    对智能机器人行进、绕、停止的控制和检测数据的存储、显示。本设计制作的简易机器人工作性能稳定。工艺简单,易于控制。且实验现场运行效果良好
    发表于 06-19 17:37 27次下载
    如何进行简易<b class='flag-5'>避</b><b class='flag-5'>障</b><b class='flag-5'>机器</b>人的设计

    不“智障”?为扫地机器人打造智能“闪避”系统

    从诞生以来,扫地机器人的升级从未停止,清洁技术的进步,更是机器人产品大放异彩,但尽管如此,人工智障”的帽子却从未摘掉,在它不断被完善的问
    的头像 发表于 07-28 16:16 2183次阅读
    <b class='flag-5'>避</b><b class='flag-5'>障</b>不“<b class='flag-5'>智障</b>”?为扫地<b class='flag-5'>机器</b>人打造智能“闪避”系统

    Arduino机器

    电子发烧友网站提供《Arduino机器.zip》资料免费下载
    发表于 08-18 10:20 3次下载
    Arduino<b class='flag-5'>机器</b>人<b class='flag-5'>避</b><b class='flag-5'>障</b>

    使用Arduino的宠物机器人TOMY

    电子发烧友网站提供《使用Arduino的宠物机器人TOMY.zip》资料免费下载
    发表于 10-28 09:32 4次下载
    使用Arduino的宠物<b class='flag-5'>狗</b><b class='flag-5'>机器</b>人TOMY<b class='flag-5'>避</b><b class='flag-5'>障</b>

    如何制作机器

    电子发烧友网站提供《如何制作机器人.zip》资料免费下载
    发表于 12-01 15:15 0次下载
    如何制作<b class='flag-5'>避</b><b class='flag-5'>障</b><b class='flag-5'>机器</b>人

    蓝牙控制的机器

    电子发烧友网站提供《蓝牙控制的机器人.zip》资料免费下载
    发表于 06-28 16:08 0次下载
    蓝牙控制的<b class='flag-5'>避</b><b class='flag-5'>障</b><b class='flag-5'>机器</b>人

    INDEMIND:告别人工智障,扫地机器人哪种方式能让你“躺平”?

    方寸之间,腾转自如,这或许是人们对扫地机器功能的理想期待。
    的头像 发表于 07-28 10:44 1589次阅读
    INDEMIND:告别<b class='flag-5'>人工</b><b class='flag-5'>智障</b>,扫地<b class='flag-5'>机器</b>人哪种<b class='flag-5'>避</b><b class='flag-5'>障</b>方式能让你“躺平”?

    技术再提升,扫地机器不止于精准

    扫地机器人好用与否,表现首当其冲,那么评判好坏的标准又是什么?
    的头像 发表于 09-28 11:38 1523次阅读
    <b class='flag-5'>避</b><b class='flag-5'>障</b>技术再提升,扫地<b class='flag-5'>机器</b>人<b class='flag-5'>避</b><b class='flag-5'>障</b>不止于精准

    机器人红外

    机器人红外
    发表于 09-19 12:57 0次下载

    地瓜机器RDK X5 规格书与地瓜机器RDK X5原理图

    、割草机等细分场景下与全球超过 200+中小创客、50,000+个人开发者开展深度合作,创造了超过 50+品类的智能机器人。 旭日智能计算芯片相关资料下载链接: 地瓜机器RDK X5
    的头像 发表于 04-21 19:01 2534次阅读
    地瓜<b class='flag-5'>机器</b>人<b class='flag-5'>RDK</b> <b class='flag-5'>X5</b> 规格书与地瓜<b class='flag-5'>机器</b>人<b class='flag-5'>RDK</b> <b class='flag-5'>X5</b>原理图

    TuyaOpen开源框架+地瓜RDK X5开发板=激光雷达、人体追踪的智能小车

    OriginBot是一款智能机器人开源套件,搭载地瓜RDKX5开发板,通过完全开源的TuyaOpen开发框架(点击查看TuyaOpen能开发哪些AI硬件?),能够实现激光雷达、智能
    的头像 发表于 06-26 18:35 1293次阅读
    TuyaOpen开源框架+地瓜<b class='flag-5'>RDK</b> <b class='flag-5'>X5</b>开发板=激光雷达<b class='flag-5'>避</b><b class='flag-5'>障</b>、人体追踪的智能小车