0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【前瞻技术布局】咖啡机器人:具身智能技术首阶段探索与实践

京东云 来源:jf_75140285 作者:jf_75140285 2025-12-23 18:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、前言

我是一名京东具身智能算法团队的研究人员,目前,主要专注在真实场景真实机器人下打造一套快速落地新场景的具身智能技术架构,聚集机器人操作泛化能力提升,涉及模仿/强化学习、“视觉-语言-动作”大模型等方法研究。本文主要以第一阶段咖啡机器人任务场景为切入点,来阐述所取得的技术突破,以及后续技术优化方向。如下是机器人全程自主完成打咖啡的视频。

二、问题定义和路径选择

具身智能,指的是配备实体身躯、支持物理交互的智能体所展现出的智能形态。凭借这一智能形式,机器人及其他智能设备得以在复杂多变的现实世界中执行各类任务。然而,鉴于任务的复杂性以及操作所呈现出的高难度与多样性,具身智能技术遭遇诸多挑战,当前仍处于持续发展阶段。现阶段,多数具身智能研究仅在实验室或结构化场景中开展,很难将成果迁移至真实场景加以应用。究其根源,理想环境屏蔽了诸多在真实场景中才会暴露的问题。有鉴于此,我将研究重心聚焦于真实场景下的具身智能技术突破,同时,为推动具身智能技术广泛赋能多元业务,着力打造一套能够快速适配新场景的具身智能技术架构

目前,具身操作是具身智能核心技术卡点,其技术路线粗分为预测机器人操作动作预测物体抓取位姿。前者泛化性弱且依赖大量专家数据,后者难适用于复杂长序列任务,灵巧手位姿也难获取。鉴于此,创建了技术上乘上启下“末端模仿” 新路径,融合两者优势,包括预测预抓取位姿(易实现、泛化性强)与统一操作轨迹学习(减少专家数据依赖、操作灵巧),且该路径可灵活扩展为 “视觉 - 语言 - 动作” 大模型方法。

三、快速落地新场景技术架构打造

在当今快速变化的技术环境中,集团会面临着不断适应新业务场景的挑战。只能适应单一场景的具身智能技术不具备长期价值,而能够快速落地新场景的具身智能技术则至关重要。因此,针对于真实场景下机器人打咖啡任务,打造了一套快速落地新场景的技术架构原型,并取得了关键技术突破。

1、关键技术突破及价值

1)真实场景下从0到1打造具身智能系统技术架构

面临挑战:具身智能系统往往涉及内容模块较多,耦合关系较为复杂,可扩展性较差,难以快速适应新任务场景。与此同时,真实场景下,往往面临着通信时延、模型推理速度和系统稳定性等挑战。

技术突破:如下图所示,打造了一套具备高扩展性的具身智能系统技术架构,只需定义合适的子任务序列就可落地新场景。其中,该系统以ROS系统为基础构建,整个流程通过主调度模块进行协调,确保各模块之间的协同工作,通过不同控制模式决定系统不同阶段的工作方式,包括导航、感知、基于Agent的任务规划、遥操、具身操作等。此外,设计了模型异步推理、GRPC协议数据传输和子母路由通信等机制来攻克通信时延、推理速度慢等问题。

核心价值:在真实场景下,从0到1打造了整套具身智能系统技术架构,并且成功落地咖啡机器人任务场景中,而不是在简单的实验室或者结构化场景下。与此同时,为后续真实场景下具身智能技术的研发提供了坚实的基础

wKgZO2lKdTiAF5XWAAS_Kpdz-J0159.png

2)面向双臂灵巧手构建高频率一体式遥操技术

面临挑战:目前,大多数遥操采用了同构方式。这种方式需要额外配置相应的机械臂,并且不同结构机器人是无法共享,可扩展性及便捷性低。其次,双臂和灵巧手的一体式遥操技术对其同步性及延迟率要求高,实现难度大。

技术突破:如以下视频所示,构建了面向双臂灵巧手的一体式高频率遥操技术。通过结合惯性动捕视觉动捕技术,对遥操设备进行了创新设计,使机器人能够精准复刻人类动作。同时,借助手和臂数据透传技术,优化了从动作捕捉到控制执行的高频率跟随链路,极大提升了系统响应速度与操作精度。

核心价值:相比于行业其他遥操技术,该技术具备轻量化价格低廉扩展性强特点。此外,通过该遥操技术,双臂灵巧手的整体控制频率达50hz以上,并且系统延时在50ms以内。

3)少量数据下实现物体位置的泛化操作

面临挑战:具身操作的泛化性一直是一个挑战性问题。目前,大多数方法都依赖于大量数据使其涌现出泛化性能。然而,大量的示教数据需要消耗大量人力物力。训练模型也需较多计算资源的支撑,且效果也难以达到较佳的泛化性能。

技术突破:如下图所示,提出了基于末端模仿的泛化操作方法,聚集于统一的操作轨迹学习,能在较少的数据下实现较强的位置泛化能力,涉及核心模块包括:操作物体感知与位姿估计预操作位姿到达聚集物体的策略学习。此外,设计了聚集于物体的视觉特征提取模块,增强对核心操作区域的感知。

核心价值:相比与行业已有方法,首次提出聚集于核心操作轨迹的学习方法,能在较少数据量情况下实现物体位置的泛化操作,在打咖啡任务中,成功率达90%以上。此外,在大量抓取任务中(拿扫码枪、抓娃娃、搬箱子等等),该方法表现出的性能相比于baseline成功率提升了50%以上

wKgZPGlKdTqAEnnGAAV48zZC5s0893.png

2、咖啡机器人任务场景实践

基于所打造的具身智能技术架构,首先落地了咖啡机器人任务场景。机器人打咖啡任务主要包含以下几个步骤:导航到咖啡机拿起空杯子放好杯子点击屏幕(选择咖啡、确认按钮和已放好按钮)、拿起咖啡杯导航到用户位置将咖啡杯递给人。打咖啡任务是一个真实场景下的长序列任务,包含多个子任务。子任务都是按序列衔接好的,完成当前子任务才会执行下一个子任务。与此同时,设计了子任务是否成功完成的检测机制,提升整个系统的鲁棒性,比如:点击屏幕过程中,如果没有点击触发,会反复点击直到成功。即便面对打咖啡这样复杂的场景,凭借该具身智能技术架构打造的系统,仍能以极高的成功率完成任务。以下是机器人打咖啡的精彩瞬间

wKgZO2lKdTuASsrQAAz_DZvIeOo823.png
拿空杯子
wKgZPGlKdTyAHkmFAA0ZW6Q_HdY455.png
放杯子
wKgZO2lKdT2AHbGEAAwCJoI2-Ko062.png
选咖啡
wKgZPGlKdT6AJeExAAs2C_3lq0M568.png
点击按钮
wKgZO2lKdT-AX8GxAAzt6pYvYkQ624.png
拿咖啡杯
wKgZPGlKdUGAN2ouAAylrjpp76U831.png
递送给人

在咖啡机器人任务场景实践中,遇到诸多新问题。起初为机器人在胸部和头部各配备 RealSense D435 相机,却发现胸部相机易被机械臂遮挡,且两款相机 FOV 过小,常无法捕捉操作物体和灵巧手,而这类问题在实验室桌面操作场景中难以察觉。于是,将头部相机换成 FOV 更大的 ZED 相机,可新相机又导致模型视觉特征不聚集,遂通过聚焦手部局部视角解决。点击屏幕时,按钮需快速抽离动作才能触发,给灵巧手控制带来极大困难。为此设计检测机制,让灵巧手能反复尝试,有效提升了点击成功率。

四、下一步技术优化及进展

后续,将进一步完善和优化整个具身智能系统架构,使其能快速落地新场景。核心聚集于具身操作方向,提升机器人的泛化操作能力,扩充其技能库的上限。结合具身技术发展趋势以及现有架构的不足,主要围绕以下两个方面开展工作。

“视觉-语言-动作”大模型促进快速落地新场景:“视觉-语言-动作”大模型会利用“视觉-语言”预训练模型知识来促进对机器人动作的学习。在大量的数据训练基础上,“视觉-语言-动作”大模型将会涌现出令人意想不到的能力:基于语言指令的新技能泛化新物体泛化、甚至多机协作能力。这些潜能在Figure AI公司最新发布的Helix模型实验结果中已展现出来。

真机强化学习优化整个具身智能系统:在目前的具身操作技术中,大多数采用了模仿学习方法。然而,模仿学习存在其局限性,较为依赖于专家数据,并且存在性能上限强化学习方法则能使机器人探索更多数据,突破其性能上限,对专家数据依赖程度较低。另外,真机强化学习是基于机器人实时与环境交互所得数据来优化模型,这种优化不仅仅是提升模型性能,而且能够对整个具身系统进行优化

五、我对具身智能的思考和坚持

在具身智能技术的实际落地进程中,真实场景的复杂程度往往远远超出了在实验室或结构化场景中预先设定的界限。在真实任务场景中进行技术探索,不但有助于我们对算法的实际性能进行验证和优化,还能够发掘出在实验室或结构化场景中未曾预想到的问题与挑战。通过在真实场景中对技术进行测试和应用,我们能够获取更为丰富的数据和反馈,进而推动技术不断迭代和创新。

随着 Figure AI 公司发布的 Helix 模型并在物流仓库中的成功应用,这使我愈发坚信具身智能的时代已然降临。对其实现的技术逻辑进行剖析:重点围绕一个机器人本体,在一个特定的垂类领域中积累充足的数据量在 “视觉 - 语言 - 动作” 大模型的有力支持下,机器人能够学会多种类人的技能,并且具有较强的泛化性能。其能够出圈的核心在于围绕一本体在真实场景下打磨技术。我认为这是实现快速落地的较佳方案,值得借鉴。此外,当前技术都围绕提升机器人任务成功率开展,若要真正将其在新场景中落地,还必须考虑机器人完成任务的效率问题

展望未来,机器人会逐步融入人类社会。我们须倾热血干劲,全力投身具身智能技术攻坚,力求让技术快速落地新场景,为企业技术增长添砖加瓦

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31634

    浏览量

    224480
  • 具身智能
    +关注

    关注

    0

    文章

    554

    浏览量

    921
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    史河机器人率先落地智能特种机器人

    2026年5月,浙江史河科技有限公司自主研发的国内款专业级智能特种机器人,正式在化工储罐维保、船舶修造、能源设施检修等高危场景实现工程
    的头像 发表于 05-20 09:33 360次阅读

    实践到标准!灵境智源参编行业权威报告,定义智能新范式

    近日,由全国机器人标准化技术委员会智能机器人通信研究组牵头、产学研40余家单位联合打造的《
    的头像 发表于 05-16 14:12 1370次阅读

    一文厘清:智能与人形机器人技术边界与差异

    一、定义 1. 智能 智能是通过物理实体与真实环境交互,实现感知、决策、执行、反馈闭环的
    的头像 发表于 04-29 11:23 428次阅读

    鲸启智能医院物流机器人亮相“智能机器人进医院”专场对接活动

    2026年4月24日,由江苏省工信厅、江苏省卫健委联合举办的“智能机器人进医院”专场对接活动在江苏省人民医院举行。作为江苏省
    的头像 发表于 04-27 14:25 144次阅读
    鲸启<b class='flag-5'>智能</b>医院物流<b class='flag-5'>机器人</b>亮相“<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>机器人</b>进医院”专场对接活动

    移动咖啡机器人上岗!杰和算力板卡成高效服务“隐形引擎”

    导语春节期间,深圳某公园“移动摊位”内,移动咖啡机器人已正式上岗制作咖啡,每天8小时营业,平均2分钟即可完成一杯咖啡或冰淇淋。它动作灵活、流程井然,精准完成取杯、冲煮、出杯等工序,消费者下单后
    的头像 发表于 03-11 11:35 665次阅读
    移动<b class='flag-5'>咖啡机器人</b>上岗!杰和算力板卡成高效服务“隐形引擎”

    破解柔性生产难题:知识驱动智能工业机器人的实战应用指南

    在工业4.0迈向工业5.0的进程中,传统的“固定编程”机器人已无法满足多品种、小批量、高柔性的生产需求。随着人工智能与大模型技术的爆发,
    的头像 发表于 03-06 15:49 354次阅读
    破解柔性生产难题:知识驱动<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工业<b class='flag-5'>机器人</b>的实战应用指南

    广汽集团成立智能机器人公司慧仑科技

    2月26日,广汽集团携第四代智能人形机器人GoMate Mini亮相广州开发区、黄埔区高质量发展大会,正式宣布孵化成立广东慧仑科技有限公司(下称“慧仑科技”)。作为广汽集团
    的头像 发表于 02-28 14:32 1033次阅读

    智能交流会

    。展会汇聚 90%+ 核心部件国产化供应链,可快速实现技术落地,坐享粤港澳大湾区 “机器人谷” 核心红利。 2 、同期多展联动 与工业自动化展、机器视觉展同期举办,形成 “感知(视觉)→决策(
    发表于 01-22 09:55

    广和通智能开发平台Fibot实现双臂机器人叠衣服

    叠衣服、整理家务……这些看似简单的日常任务,对机器人而言却是巨大的技术挑战。如何让机器人快速学会叠衣服?广和通
    的头像 发表于 12-11 13:43 1693次阅读

    前瞻布局智能新赛道,欧菲光发布人形机器人全视觉方案

    ,我国智能市场规模有望突破万亿元,并广泛带动交通物流、工业制造、商业服务等多个行业实现智能化升级。 作为
    的头像 发表于 12-02 09:14 983次阅读

    共绘具智能未来,ADI携手产业伙伴举行人形机器人媒体分享会

    分享会。作为中国创新生态的一员,ADI与来自 北京人形机器人创新中心(国家地方共建智能机器人创新中心) 、 因时
    的头像 发表于 09-23 15:13 3365次阅读
    共绘具<b class='flag-5'>身</b><b class='flag-5'>智能</b>未来,ADI携手产业伙伴举行人形<b class='flag-5'>机器人</b>媒体分享会

    【「AI芯片:科技探索与AGI愿景」阅读体验】+智能芯片

    智能技术的关键要求: 1、基于忆阻器的感存算一体化技术 牛。都可以情感生成了。 2、智能的执
    发表于 09-18 11:45

    INDEMIND亮相2025科技创变者大会,以机器人空间智能技术解锁具智能新边界

    扫地、家用陪伴、商用服务三大品类机器人空间智能平台重磅亮相,全面展示了在智能领域的突破性成果,赢得了现场的广泛关注与认可。同时,公司联合
    的头像 发表于 09-09 14:23 866次阅读
    INDEMIND亮相2025科技创变者大会,以<b class='flag-5'>机器人</b>空间<b class='flag-5'>智能</b><b class='flag-5'>技术</b>解锁具<b class='flag-5'>身</b><b class='flag-5'>智能</b>新边界

    机器人十大发展趋势

    在2025世界机器人大会开幕式上发布了《2025智能机器人十大发展趋势》,以下为全文。趋势一第一,物理
    的头像 发表于 08-12 13:22 2191次阅读
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>机器人</b>十大发展趋势

    瑞可达荣获智能机器人技术先锋奖

    技术创新与应用落地的发展路径,推动智能机器人产业迈向新的高度。在科技飞速发展的当下,
    的头像 发表于 06-16 18:09 1517次阅读