0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图

甲子光年 来源:甲子光年 2023-08-28 15:05 次阅读

具身智能新纪元。

*本文为稚晖君独家供稿,「甲子光年」经智元机器人授权发布。稚晖君本名彭志辉,先后任职OPPO、华为,现为智元机器人CTO、首席架构师。

在ChatGPT之后,又一个大模型概念火了——具身智能(Embodied AI)。

在学术界,图灵奖得主、上海期智研究院院长姚期智认为,人工智能领域下一个挑战将是实现“具身通用人工智能”;清华大学计算机系教授张钹院士,也在某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。

在产业界,微软、谷歌、英伟达等大厂均开展了相关研究,比如谷歌RT-2、英伟达VIMA等。英伟达创始人兼CEO黄仁勋在ITF World 2023 半导体大会上表示,AI下一个浪潮将是“具身智能”。

具身智能作为人工智能发展的一个重要分支,正在迅速崭露头角,成为科技界和大众关注的热门话题,同时在各个领域中展现出巨大的潜力和吸引力。

1. 什么是具身智能?

具身智能通过在物理世界和数字世界的学习和进化,达到理解世界、互动交互并完成任务的目标。

具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。一般认为,具身智能具有如下的几个核心要素:

第一是本体,作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构。

本体通常是具有物理实体的机器人,可以有多种形态。本体的能力边界会限制智能体的能力发挥,所以,具有广泛适应性的机器人本体是非常必要的。

随着机器人技术的进步,本体越来越呈现多样化和灵活性。比如,四足机器人可以具有良好的运动能力和通过性,复合机器人则把运动和操作机构整合,具有较好的任务能力;而人形机器人作为适应性更加广泛,通用能力更强的本体形态,得到了长足的进步,已经到了可以商业化的前夕。

本体具备环境感知能力、运动能力和操作执行能力,是连接数字世界和物理世界的载体。

具身智能的第二个要素是智能体(Embodied Agents),是具身于本体之上的智能核心,负责感知、理解、决策、控制等的核心工作。

智能体可以感知复杂环境,理解环境所包含的语义信息,能够和环境进行交互;可以理解具体任务,并且根据环境的变化和目标状态做出决策,进而控制本体完成任务。

随着深度学习的发展,现代智能体通常由深度网络模型驱动,尤其是随着大语言模型(LLM)的发展,结合视觉等多种传感器的复杂多模态模型,已经开始成为新一代智能体的趋势。

同时,智能体也分化为多种任务形态,处理不同层次和模态的任务。智能体要能够从复杂的数据中学习决策和控制的范式,并且能够持续的自我演进,进而适应更复杂的任务和环境。

智能体设计是具身智能的核心。具有通用能力的LLM和VLM等模型,赋予了通用本体强大的泛化能力,使得机器人从程序执行导向转向任务目标导向,向通用机器人迈出了坚实的步伐。

具身智能的第三个要素是数据。“数据是泛化的关键,但涉及机器人的数据稀缺且昂贵。”

为了适应复杂环境和任务的泛化性,智能体规模变的越来越大,而大规模的模型对于海量数据更为渴求。现在的LLM通常需要web-scale级别的数据来驱动基础的预训练过程,而针对具身智能的场景则更为复杂多样,这造成了多变的环境和任务,以及围绕着复杂任务链的规划决策控制数据。尤其是针对行业场景的高质量数据,将是未来具身智能成功应用落地的关键支撑。

具身智能的第四个要素是学习和进化架构。智能体通过和物理世界(虚拟的或真实的)的交互,来适应新环境、学习新知识并强化出新的解决问题方法。

采用虚拟仿真环境进行部分学习是合理的设计,比如英伟达的元宇宙开发平台Omniverse,就是构建了物理仿真的虚拟世界,来加速智能体的演进。

但真实环境的复杂度通常超过仿真环境,如何耦合仿真和真实世界,进行高效率的迁移(Sim2Real),也是架构设计的关键。

2. 具身智能的科研和技术进展

在基于Transformer的大语言模型浪潮带领下,微软、谷歌、英伟达等大厂,以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。

微软基于ChatGPT的强大自然语言理解和推理能力,生成控制机器人的相关代码;

英伟达VIMA基于T5模型,将文本和多模态输入交错融合,结合历史信息预测机器人的下一步行动动作;

斯坦福大学利用LLM的理解、推理和代码能力,与VLM交互并生成3D value map,来规划机械臂的运行轨迹;

谷歌具身智能路线较多,包括从PaLM衍生来的PaLM-E,从Gato迭代来的RoboCat,以及最新基于RT-1和PaLM-E升级得到的RT-2。

4ca4ec40-4566-11ee-a2ef-92fbcf53809c.png

谷歌在具身智能的研究上更具有广泛性和延续性。与其他大厂相比,谷歌依托旗下两大AI科研机构,Google Brain和DeepMind(2023年4月两大机构合并为Google DeepMind),在具身智能上研究了更多的技术路线,且各路线之间有很好的技术延续性。

其中基于RT-1研究成果,谷歌融合了VLM(PaLM-E是其中一种)和RT-1中收集的大量机器人真实动作数据,提出了视觉语言动作(VLA)模型 RT-2,在直接预测机器人动作的同时,受益于互联网级别的训练数据,实现了更好的泛化性和涌现性。

从RT-2的实验结果看,一方面,面对训练数据中没见过的物体、背景、环境,RT-2系列模型能够仍能实现较高的成功率,远超基线对比模型,证明了模型有较强的泛化能力。

另一方面,对于符号理解、推理和人类识别三类不存在于机器人训练数据中的涌现任务,RT-2系列模型也能以较高正确率完成,表明语义知识从视觉语言数据中转移到RT-2 中,证明了模型的涌现性能。同时,思维链(CoT)推理能够让RT-2完成更复杂的任务。

任何的训练都需要数据的支撑。目前来看,机器人数据来源通常是真实数据和合成数据。

真实数据效果更好,但需要耗费大量的人力和物力,不是一般的企业或机构能够负担的。谷歌凭借自己的资金和科研实力,耗费17个月时间收集了13台机器人的13万条机器人真实数据,为RT-1和RT-2的良好性能打下根基。

谷歌的另一项研究RoboCat,在面对新的任务和场景时,会先收集100-1000个真实的人类专家示例,再合成更多数据,用于后续训练,是经济性和性能的权衡。

除了数据来源问题,还有一个就是具身智能体的预测如何映射到机器人的动作,这主要取决于预测结果的层级。

以谷歌PaLM-E和微软ChatGPT for Robotics为例,预测结果处于高级别设计层级:PaLM-E实现了对具身任务的决策方案预测,但不涉及机器人动作的实际控制,需要依赖低级别的现成策略或规划器来将决策方案“翻译”为机器人动作。

微软默认提供控制机器人的低层级 API,ChatGPT 输出是更高层级的代码,只需调用到机器人低层级的库或API,从而实现对机器人动作的映射和控制。

还有一种情况就是预测结果已经到了低级别动作层级。例如,RT-2输出的一系列字符串,是可以直接对应到机器人的坐标、旋转角等信息;VoxPoser规划的结果直接就是机器人运行轨迹;VIMA也可以借助现有方法将预测的动作token映射到离散的机器人手臂姿势,即不需要再经过复杂的翻译将高层级设计映射到低层级动作。

3. 具身智能的难点剖析

具身智能作为迈向通用人工智能(AGI)的重要一步,是学术界和产业界的热点,随着大模型的泛化能力进一步提升,各种具身方法和智能体不断涌现,但是要实现好的具身智能,会面临算法、工程技术、数据、场景和复杂软硬件等的诸多挑战。

首先,要有强大的通用本体平台。如何解决硬件的关键零部件技术突破,形成具有优秀运动能力和操作能力的平台级通用机器人产品,将具身本体的可靠性、成本和通用能力做到平衡,是一个巨大的挑战。

从基础的电机、减速器、控制器到灵巧手等各部分,都需要持续进行技术突破,才能够满足大规模商用的落地需求。

同时,考虑到通用能力,人形机器人被认为是具身智能的终极形态。这方面的研发,也将持续成为热点和核心挑战。

其次,需要设计强大的智能体系统。

作为具身智能的核心,具备复杂环境感知认知能力的智能体,将需要解决诸多挑战,包括:物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等。

同时,具身智能要求实时感知和决策能力,以适应复杂和变化的环境。这要求高速的数据采集、传输和处理,以及实时的决策反应,尤其是LLM所消耗的算力规模巨大,对于资源有限的机器人处理系统将形成巨大的数据量、AI计算能力和低延迟的挑战。

再者,高质量的行业数据将成为巨大挑战。

现实场景的复杂多变,使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型,进而让智能体自我进化。

而且,耦合的本体,需要实际部署到真实环境中,才能够采集数据,这也是和非具身智能的明显不同。

比如,在工厂作业中,由于机器人本体并未参与到实际业务,则很多实际运行数据就无法采集,而大量的人类操作数据虽然可以弥补部分不足,但仍然需要实际业务的数据。

当然,通过大模型的涌现能力和思维链能力,部分任务可以零样本学习到,但对于关键业务,要求成功率,则仍然需要高质量的垂域数据。同时,通过层次化的智能体设计,将不同任务限定到特定领域,则是一个解决泛化和成功率的有效尝试。

最后,通过虚拟和真实的交互,持续学习和进化的能力,则是具身智能演进的重要技术途径。

亿万年的生物演化过程,造就了形态丰富的生命形式。而学习新任务来适应环境的变化,则是持续改进的动力。形态适配环境合适的智能体,则可以快速的学习到解决问题能力,进而更好的适应变化。

但是,由于形态的变化空间无穷巨大,搜索所有可能的选择在有限的计算资源情况下变的几乎不可能。本体的自由度设计,也会物理上约束智能体的任务执行能力,进而限制了控制器的学习效果。

在复杂环境、形态演化和任务的可学习性之间,存在着未可知的隐式关系,如何快速学习到合理的规划和决策能力,则成为具身智能的重要一环。

4. 智元机器人的实践

8月18日,智元机器人在具身智能远征A1的发布会提出了一种具身智脑的概念:

4cc66b54-4566-11ee-a2ef-92fbcf53809c.png

具身智脑EI-Brain(Embodied Intelligence Brain)把机器人的具身智能思维系统分为云端的超脑、端侧的大脑、小脑,以及脑干这样四层,分别对应于机器人任务级、技能级、指令级以及伺服级的能力。

⼤脑⽤于完成前⾯提到的语义级多段推理任务,结合上下文进行任务理解,⽽且如果模型的通识能⼒不满⾜任务需求,还可以借⽤更强的云端超脑的互联⽹能⼒。

小脑则负责结合各种传感器的信息进行运动指令⽣成,就跟⼈类⼀样,⼤家⾛路的时候并不会想着怎么精确地控制每块肌⾁收缩,而是由⼤脑发出⼀个宏观指令后,由⼩脑完成身体的平衡和各种运动学动⼒学的控制,运控算法都跑在这⼀层。

最后在硬件底层,由脑⼲来进⾏精确的伺服闭环控制每个电机⾼效精准地执⾏。

在EI-Brain的设计中,上层大模型聚焦于具体的感知决策和计划生成,不用依赖于具体的机器人载体硬件;下层视控模型和运控算法聚焦于底层的具体场景的特定动作执行,不用决策整个任务如何完成。超脑、大脑与小脑、脑干能够相互解耦,不用相互依赖,实现了具身智能系统的层级划分。

智元远征A1是为了完成重复性的通用任务而设计,设计时考虑了2个非常重要的指标,“任务泛化率”和“任务执行成功率”。

任务泛化率指的是对未见过的任务的泛化能力,是否能够按照上述生成的指令计划进行精准执行。这个指标主要针对是对上层的云端超脑和大脑来说,大模型是否能够对用户各种新说法和新的3D环境进行精确的感知决策和指令计划生成。

任务执行成功率指的是机器人载体在实际物理环境中,执行具体任务的成功率等,这个指标主要针对下层的小脑和脑干来说,视控模型和运控算法是否能够按照上述生成的指令计划进行精准执行。

EI-Brain具身智能系统层级有效保证了这两个指标参数的实现,极大地提升了机器人的智能水平和工作效率,使其在完成复杂任务、泛化任务时,更加得心应手。

类似⾃动驾驶L1到L5的发展过程,全场景适⽤的通⽤机器⼈的实现也不会是⼀步到位的。在技能级模型层⾯,智元机器人定义了⼀系列的元操作(Meta-Skill)库,在元操作库范围限定的这些有限泛化场景内,机器⼈能够⾃主推理决策出端到端完成任务所需要的动作编排。⽽且随着元操作库列表的不断扩充,机器⼈能够胜任的任务空间将呈指数级增⻓,在交互中学习进化,最终实现全场景的覆盖,切⼊千⾏百业。

智元远征A1本体是当前国内通用机器人领域最领先的。智元远征A1形态与人类相似,身高175cm,重量55kg,最高步速可达7km/h,全身49个自由度,整机承重80kg,单臂最大负载5kg。

智元远征A1全身搭载了包含谐波⼀体关节、⾏星伺服、直线驱动器、空⼼杯电机等在内的49个各类执⾏器,也就是说这⼀版机器⼈拥有49个⾃由度。

在硬件层面,智元自研了关节电机PowerFlow、灵巧手SkillHand、反曲膝设计等关键零部件,以此提升具身智能机器人的能力、同时降低成本。

在软件层面,智元自研了AgiROS,是一套机器人运行时中间件系统,在AI感知决策与视觉控制等大模型算法方面,能够实现自主任务编排、常识推理与规划执行等。

未来智元将紧跟算法前沿,尤其是大模型的前沿技术,重视数据原始积累和数据平台建设,形成数据闭环,为算法打下坚实的基础。结合硬件自研优势,以具身智能人形机器人为载体,构建丰富的meta-skills技能库,快速落地相关商业垂域应用场景,在实验室上的学术探索基础上迈出商业落地的最为关键一步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27050

    浏览量

    201431
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230638
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10426
  • 稚晖君
    +关注

    关注

    5

    文章

    34

    浏览量

    4800
  • 智元机器人
    +关注

    关注

    0

    文章

    8

    浏览量

    333

原文标题:稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【开源项目】Emo:基于树莓派 4B DIY 能笑会动的桌面机器人

    Emo是款基于树莓派4做的个人伴侣机器人,集时尚与创新于一身。它不仅仅是机器人,更是
    发表于 12-26 15:18

    开源项目!教你如何复刻自平衡赛车机器人智能家居中控、竞技机器人先进模糊控制器等

    开源项目作品 为了方便大家更好提升自己,电子发烧友小编为大家整理了些工程师大佬设计的开源项目作品,供大家可以参考学习,希望对广大工程师有所帮助。 1.用全志R128复刻自平衡赛车机器人,还实现
    发表于 12-26 09:17

    开源作品!稚晖超迷你低成本开发板、超酷机器人智能手环等参考方案

    ;>>点此查看全文&下载资料 2.分享个大佬的设计作品:只瓦力机器人 主要叙述机器人的系统硬件电路设计,包括锂电池充放电电路、WiFi图传电路以及
    发表于 12-12 10:28

    国内首个!北京人形机器人创新中心成立

    据悉,北京人形机器人创新中心将面向未来打造世界首个通用人形机器人“硬件主控平台”、首个大模型+开源控制系统“软件主控平台”。以产业的基本共性问题为中心,开展通用机器人主机原型、
    的头像 发表于 11-09 10:41 673次阅读

    Arduino教学机器人的使用教程

    本文档的主要内容详细介绍的是Arduino教学机器人的使用教程
    发表于 09-27 06:53

    ai人工智能机器人

    的进行监控管理。 智能电话机器人的另个优势是不知疲倦,不需要休息和喝水,不需要休息。人在工作时就会有各种各样的脾气,但智能电话机器人不会,
    发表于 09-21 11:09

    增强底层芯片性能 助力机器人实现通用智能

    电子发烧友网报道(文/李宁远)未来的机器人是什么样,行业上其实还有很多争论,是人形的通用机器人还是各个行业里面负责垂直应用的专用机器人,没有一个特别准确的答案。但毫无疑问的是随着人工智能
    的头像 发表于 09-06 01:06 966次阅读

    比亚迪首次押注人形机器人赛道 投资稚晖君200万

    比亚迪冲进人形机器人赛道! 就在这两天,比亚迪投资了一家人形机器人公司。 这家公司正是刚开完发布会不久的智元机器人,由B站野生钢铁侠、天才少年稚晖君成立。
    发表于 08-30 09:23 291次阅读
    比亚迪首次押注人形<b class='flag-5'>机器人</b>赛道 投资<b class='flag-5'>稚晖</b>君200万

    用视觉传感器代替触觉?华为天才少年稚晖君首个机器人登场!感知+AI创造未来!

    人行机器人——智元具身智能机器人 “远征 A1”。据介绍,智能机器人 “远征 A1”融合了各种先进的本体控制、感知、认知和决策
    的头像 发表于 08-21 17:21 912次阅读
    用视觉传感器代替触觉?华为天才少年<b class='flag-5'>稚晖</b>君首个<b class='flag-5'>机器人</b>登场!感知+AI创造未来!

    天才少年稚晖君离职菊厂创业首秀!AI人形机器人半年成型,马斯克慌不慌?

    “野生钢铁侠”、“华为天才少年”、“年薪百万离职创业”——头戴这些传奇光环的稚晖君,带来了其创业以来的产品首秀。智元具身智能机器人“远征A1”重磅发布!从开场前的弹幕来看,大多数人都期待满满~
    的头像 发表于 08-20 08:13 506次阅读
    天才少年<b class='flag-5'>稚晖</b>君离职菊厂创业首秀!AI人形<b class='flag-5'>机器人</b>半年成型,马斯克慌不慌?

    华为天才少年稚晖君轮足机器人“远征A1”正式发布

    发布会,正式发布远征A1智能机器人。“远征A1”是人工智能技术与机器人实体相结合;具备双足行走、智能任务、人机互动等领域的能力。
    的头像 发表于 08-18 18:42 1900次阅读
    华为天才少年<b class='flag-5'>稚晖</b>君轮足<b class='flag-5'>机器人</b>“远征A1”正式发布

    天才少年稚晖君官宣智元人形机器人「远征 A1」即将发布

    昨晚同时发生两件大事,雷军携比狗更狗的铁蛋2惊艳登场,稚晖君发出创业首秀预告,人形机器人「远征 A1」3天后亮相。 放弃百万年薪从华为离职、走上创业之路的「天才少年」稚晖君,终于要交卷了!
    发表于 08-16 10:38 457次阅读
    天才少年<b class='flag-5'>稚晖</b>君官宣智元人形<b class='flag-5'>机器人</b>「远征 A1」<b class='flag-5'>即将</b>发布

    自编程机器人,售后难做吗?

    自编程是如何完成的。 自编程其实也不是很高深的问题。 当用户给出参数时,有时也包括逻辑。 例如用户说,如果设备打开完毕,执行个命令。 这个例子就包括了个如果。你的智能机器人只需要生
    发表于 06-08 16:20

    如何快速地让机器人投入生产

    帧。 而机器人能提供些什么动作呢?它主要提供几个圆的转动和距离。难度多是三维坐标以及圆形,三角形的计算。如果要更智能,需要加入眼睛,耳朵等其它功能。它主要要生产个产品的建模数据。或
    发表于 06-06 16:18

    浅谈儿童陪护机器人

    儿童陪护机器人越来越受到人们的关注,其中转动控制是其重要组成部分之。步进电机芯片作为种常用的控制芯片,被广泛应用于儿童陪护机器人中的转动控制。本文将从步进电机芯片的工作原理、优势和
    发表于 05-11 15:12