0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大晓机器人开源空间智能通用模型ACE-Brain-0

商汤科技SenseTime 来源:大晓机器人 2026-03-11 13:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:大晓机器人

近日,大晓机器人联合上海交通大学、南洋理工大学、香港中文大学、香港大学等研究机构共同推出以空间智能为底层框架、跨不同具身本体的通用基础模型“ACE-Brain-0”,正式面向全行业开源。

ACE-Brain-0首次打破汽车、机器人、无人机等不同本体壁垒,贯穿空间认知、自动驾驶、低空感知、机器人交互,重新定义了物理世界智能的技术底层逻辑。其性能表现在涵盖空间认知、自动驾驶、低空感知、具身交互的24 个核心 benchmark 中,19 个取得当前模型中的 SOTA(排名第一) 成绩,全面大幅领先市场主流具身模型。ACE-Brain-0主要对标GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16个知名模型,将19个Benchmark具身模型最强基线准确率相对提升5%-97.8%。在衡量三维认知的MindCube,以82.1%的成绩,较最好的开源模型(InternVL3-8B)提升了97.8%。

目前,上述模型已应用于大晓机器人具身超级大脑模组A1,使搭载具身超级大脑A1的机器狗具备行业首创的端到端自主导航能力,并且基于VLA架构实现云端智能交互,让机器狗具备理解抽象指令、感知复杂环境、完成复杂任务的端到端闭环能力。

在城市人行道等复杂公共场景中,搭载ACE-Brain 的机器狗展现出卓越的导航与VLA能力。以图片场景为例,面对“估算行人和摩托车间距、判断是否有足够空间导航通过”的需求,ACE-Brain赋能机器狗精准完成三大核心动作:

依托空间认知能力,可精准量化行人和摩托车间距约0.5米,为导航决策提供可靠依据;通过视觉语言理解,清晰解析自然语言指令,实现“看—懂—判”的连贯交互,无需额外定制化指令;在导航决策中,既能判断空间足够通过,又主动提出“谨慎前行”的安全建议,兼顾效率与公共安全,适配复杂公共场景的移动需求。

搭载ACE-Brain 的机器狗,可精准识别前方车辆等障碍物,通过空间智能感知道路环境与目标位置,预判通行风险,主动判断 “应停下并安全绕行”,实现空间识别与目标预测的高效协同,保障复杂路况下的移动安全。

这种能力让机器狗在拥挤人行道、复杂路况等场景中,运用强大的空间智能技术底座,通过3D 场景建模、几何关系推理、空间定位等核心能力,既能精准感知环境,又能通过自然语言交互理解任务,实现安全、高效的自主导航,为公共巡检、应急响应等场景提供可靠支撑。

空间智能成为跨本体的“通用语言”

为了实现多任务,传统的办法是把所有任务数据混在一起,然后训练模型,盼望模型能够自己悟出来;但是ACE-Brain的思路则更像教育学:先让它建立“空间感”,学会理解世界中的前后左右、远近高低、视角变化和位置等空间几何关系,然后再去学不同任务中的具体技能。简单来说,就是先学会“怎么看懂世界”,再学会“怎么完成相关的任务动作”。

大晓机器人团队突破性发现,无论自动驾驶车辆、低空无人机还是机器人,尽管形态差异巨大,但都依赖三大核心空间能力:三维空间结构建模、几何关系推理、场景演化预测。

基于上述共性,大晓机器人首次提出以空间智能作为跨具身形态的“通用语言”,成为用以连接不同物理域的统一认知支架,为通用具身智能找到统一底座。

c7ecbd68-1b85-11f1-90a1-92fbcf53809c.png

ACE-Brain-0架构

为打造统一的空间智能认知支架,ACE-Brain-0以空间信息为多模态自回归架构,实现了从单视角图像到多视角视频序列的认知统一处理。

在输入层,兼容单图、多图、视频等多模态视觉数据,搭配自然语言指令作为任务条件,覆盖所有具身场景的输入需求;

在表征层,通过通用视觉编码器提取领域无关的空间特征,经MLP 投影器映射为语言模型可理解的视觉令牌,并按 “通用、空间、驾驶、航空、具身” 分类组织,确保空间信息的结构化表达;

在推理层,由统一的LLM解码器实现跨模态融合推理,将空间认知转化为可迁移的统一表示,使不同具身场景的知识能基于空间逻辑自由流动。

这一设计的核心优势在于,无需为特定场景定制专用模块,仅通过空间智能的“通用表征”,就实现了跨域知识的自然迁移,彻底改变了“一个场景一套模型”的传统具身研发模式。

打造全新范式,解决跨本体训练困境

传统跨域训练面临两大困境,一是联合训练易引发梯度干扰,导致各领域能力“稀释”;二是序贯训练则会出现灾难性遗忘,学了新技能丢了旧能力。大晓机器人首创Scaffold-Specialize-Reconcile(SSR)三阶段训练范式,通过“先建共识、再练专长、后融知识”的路径,完美解决了这一矛盾。

首先,Scaffold(框架构建)筑牢通用空间基础。ACE-Brain-0利用大规模空间智能数据集训练空间专家模型,建立域无关的三维认知先验。这一步就像为所有具身能力打造“通用地基”,让后续领域训练都能基于统一的空间认知框架展开,避免了各领域“从零开始学空间”的重复劳动。

第二步,Specialize(域专精学习)实现隔离优化和强化专长。在空间框架上,ACE-Brain-0分别独立训练自动驾驶专家、机器人专家等领域模型。每个领域专家模型仅在自身专属数据集上微调,避免不同本体数据带来的梯度冲突,确保每个领域都能获得充分的专业化能力。

最后一步,Reconcile(跨域知识调和)实现数据无关的参数级融合。ACE-Brain-0通过任务向量空间对齐技术,在无需原始训练数据的条件下,将各领域专家的参数进行整合,从而同时联合训练中的优化干扰和顺序训练导致的灾难性遗忘。

四大能力首次统一,打造“一脑多形”样本

ACE-Brain-0首次在单一模型框架中实现四大核心具身能力的统一:空间认知、自动驾驶、低空感知、机器人交互。这一突破并非简单的能力“拼接”,而是基于空间智能的深度融合,其技术关键在于“共享认知结构”的构建。

通过空间中心化建模,ACE-Brain-0让不同具身场景的认知逻辑实现统一。自动驾驶中的“车距判断”与机器人交互中的“抓取距离估算”,共享同一套空间距离推理机制;交通场景的“多视图融合”与机器人的“多视角物体识别”,依托相同的跨视角空间对齐技术。

这种“共享认知结构” 使得模型能在不同观察视角、运动尺度与任务语义之间自由切换,实现跨域理解与推理能力的自然迁移。

刷新19个榜单具身模型SOTA

ACE-Brain-0在涵盖空间认知、自动驾驶、低空感知、具身交互的 24 个核心 benchmark 中,对标GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16个知名模型,取得了19个当前具身模型中的SOTA(排名第一) 成绩,同时将19个Benchmark具身模型最强基线准确率相对提升5%-97.8%,全面超越市场主流具身模型(如天工、北京智源、小米等)。

空间认知领域:

ACE-Brain-0参与了7项空间认知领域的权威基准评测,在具身智能模型阵营中斩获5项 SOTA, VSI(视觉空间智能)、MMSI(多模态空间智能)、SITE(空间语言理解)、SAT(空间视角变换)、Mindcube(受限视角三维建模)代表了不同维度的核心空间能力。

其中VSI(视觉空间智能)综合评估模型对空间布局、物体关系和尺度的理解与推理能力,ACE-Brain-0以63.3%的成绩领跑具身模型,验证了其空间认知的通用性;SAT(空间视角变换)考察从不同视角重构空间布局的能力,ACE-Brain-0以92.0% 的成绩,相较当前最好具身模型提升了16.9%,证明其在视角变换下的空间建模能力。

Mindcube(受限视角三维建模)评估有限视角下构建三维心理空间的能力,ACE 82.1%的表现碾压其他具身模型,较闭源模型 Gemini-2.5-Pro相对提升了42.5%,较最好的开源模型(InternVL3-8B)相对提升了97.8%,突破了遮挡和视角限制。

c8aeaf7c-1b85-11f1-90a1-92fbcf53809c.png

*代表基于上述模型复现/下划线代表次优表现/黑体代表最优表现

自动驾驶领域:

ACE-Brain-0在5个自动驾驶benchmark 上均取得领先表现,分别是MME-RealWorld(真实驾驶场景理解)、MAPLM(地图与道路结构理解)、DriveAction(驾驶行为理解)、NuscenesQA(多视图动态场景理解)、NuPlanQA(规划与交通规则理解),尤其在真实驾驶场景理解(MME-RealWorld)和规划推理能力(NuPlanQA) 等关键能力上实现显著提升。

其中MME-RealWorld(真实驾驶场景理解)主要评估模型在真实交通环境中的 多模态驾驶场景理解能力。ACE-Brain-0以71.2%的成绩,相比当前最强具身大脑模型相对提升18%。

NuPlanQA(规划与交通规则理解)重点考察模型在自动驾驶规划任务中的 交通信号理解与车辆状态推理能力。ACE-Brain-0取得91.7%的成绩,决策正确率超越所有具身模型基线,较Pelican-VL-7B模型相对提升近10%。

c91c0da6-1b85-11f1-90a1-92fbcf53809c.png

*代表基于上述模型复现/下划线代表次优表现/黑体代表最优表现

低空感知领域:

ACE-Brain-0在5个低空视觉benchmark上均取得显著领先表现,包括UrbanVideo-Bench(城市级无人机场景理解)AirCopBench(空中交通关系理解和多无人机视角协同理解)、AVI-Math(空中几何推理与数值计算)、Airspatial-VQA(低空空间视觉问答)、HIRVQA(遥感视觉问答),尤其在城市级无人机场景理解(UrbanVideo-Bench)和空中交通关系推理(AirCopBench) 等关键能力上实现大幅提升。

其中UrbanVideo-Bench(城市级无人机场景理解)主要评估模型在城市级无人机视频中的大尺度场景理解与地标识别能力。ACE-Brain-0以56.9%的成绩,相比当前最强具身大脑模型相对提升51.7%。

AirCopBench(空中交通关系理解和多无人机视角协同理解)主要考察模型在复杂城市道路拓扑下的空中交通监控与车辆关系推理能力。ACE-Brain-0以70.3%领跑具身模型,相比当前最强具身大脑模型相对提升35.4%。

AVI-Math(空中几何推理与数值计算)主要评估模型在无人机视角下进行 几何计算与结构化数值推理能力。ACE-Brain-0相比当前最强具身大脑模型提升1.3个百分点,达35.0%。

c97a706c-1b85-11f1-90a1-92fbcf53809c.png

*代表基于上述模型复现/下划线代表次优表现/黑体代表最优表现

具身交互领域:

ACE-Brain-0在4个具身benchmark上均表现出稳定优势,包括RoboVQA(机器人操作理解)、EmbSpatial(具身空间理解)、EgoPlan-Bench2(具身任务规划)、EB-Habitat(具身导航理解),尤其在机器人操作理解(RoboVQA)等关键能力上实现显著突破

RoboVQA(机器人操作理解)主要评估模型对机器人操作行为与物体交互过程的理解能力。ACE-Brain-0以64.6%的成绩远超同类模型。

EmbSpatial(具身空间理解)主要评估模型在具身环境中的 空间关系理解与环境结构认知能力。ACE-Brain-0成绩达77.3%,相比当前最强具身大脑模型提升1个百分点。

EgoPlan-Bench2(具身任务规划)主要考察模型在第一视角复杂任务中的长时序任务规划能力。ACE-Brain-0成绩达55.3%,相比当前最强具身大脑模型提升1.9个百分点。

EB-Habitat(具身导航理解)主要考察模型在仿真具身环境中的导航决策与完成完整任务的综合能力。ACE-Brain-0成绩达42.3%,相比当前最强具身大脑模型提升2.3个百分点。

c9dcc316-1b85-11f1-90a1-92fbcf53809c.png

*代表基于上述模型复现/下划线代表次优表现/黑体代表最优表现

▎共享空间智能成为具身智能新世界观

一个模型,一套参数同时在这些任务上的卓越表现非常有意义。它说明“空间优先”不是一句漂亮口号,而是会真实改变跨形态学习效果的设计原则。尤其是具身交互那条曲线更耐人寻味:为什么直接学会失败,而先学空间再学会成功?直观上看,因为当智能体面对真实世界时,动作策略往往依赖于对环境结构的正确理解。如果连空间关系都没有稳定学会,那么所谓“具身能力”就很容易变成表面模仿;反过来,如果先掌握了共享的空间骨架,再去学具体动作,就像先学会看地图再学开车,很多问题会突然迎刃而解。

更重要的是,报告并没有满足于“实验上可行”,还试图回答:为什么空间真的适合做共同底座? 在附录理论部分,报告把这个想法形式化为一个“可恢复的空间scaffold”:模型的内部表示中,应该存在一个形态无关的共享几何变量,它承载三维布局、相对位姿、深度和拓扑等信息。如果训练后这个共享变量能够被稳定“解码”出来,那么它就不再只是一个模糊特征,而会变成跨不同身体都能复用的空间核心。理论中进一步指出,后续不同系统需要学习的,更多会是各自身体特有的感知、动力学和控制部分,而不是反复从零学习几何世界。

这套理论把一个深奥问题讲清楚了:为什么是“空间”,而不是别的? 因为空间不是一个普通任务,它更像是所有物理智能共同依赖的坐标系。无论是车在车道中判断前后左右,还是无人机从鸟瞰视角推理道路关系,还是机器人在房间里判断物体位置,它们都必须先拥有一种内部“空间地图”。ACE-Brain-0就是把这种“内部地图”从隐含假设提升成了方法设计的起点。

这一技术路径的领先性,不仅在于解决了当前具身AI 的核心痛点,更在于为未来通用物理世界智能的研发提供了可复用的底层框架。ACE-Brain 真正让人兴奋的地方,不是某一个分数超过了谁,而是它重新定义了“通用具身智能”应该从哪里开始。过去我们常常把“通用”理解为一个模型会做很多任务;而 ACE-Brain 让人看到另一种可能:真正的“通用”,或许不是任务列表越来越长,而是先找到这些任务背后的共享结构。空间,就是它给出的答案。ACE-Brain提出了一种新的具身智能世界观:不同身体不一定要从头学起,它们可以先共享一个关于世界的空间理解,再在这个基础上长出各自的能力。未来的具身智能体,无需再为单一形态定制模型,只需基于ACE-Brain的空间智能底座,就能快速适配新的物理本体与应用场景。从自动驾驶到低空经济,从工业机器人到家庭服务设备,展现出面向真实物理世界多场景的平台潜力。

该技术成果已上传:

https://arxiv.org/abs/2603.03198

Project Page:

https://ace-brain-team.github.io/ACE-Brain-0

Code:

https://github.com/ACE-BRAIN-Team/ACE-Brain-0

Hugging Face:

https://huggingface.co/ACE-Brain/ACE-Brain-0-8B

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31391

    浏览量

    223547
  • 开源
    +关注

    关注

    3

    文章

    4325

    浏览量

    46427
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253

原文标题:全球首创,刷新19个SOTA!大晓机器人开源空间智能通用模型ACE-Brain-0

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能机器人0到1系统入门课程 带源码课件 百度网盘下载

    ,且无法传达空间信息;视觉识别虽然精准,但缺乏交互的即时性和意图的明确性。真正的智能交互,在于将两者有机结合。 未来的机器人将不再依赖简单的“关键词触发”,而是通过多模态融合技术,像人类一样通过
    发表于 04-11 16:41

    高德全量开源具身操作基座模型ABot-M0

    近日,高德宣布正式全量开源ABot-M0——全球首个基于统一架构的机器人具身操作基座模型,可实现一个“通用大脑”适配多种形态的具身
    的头像 发表于 04-01 16:00 657次阅读
    高德全量<b class='flag-5'>开源</b>具身操作基座<b class='flag-5'>模型</b>ABot-M<b class='flag-5'>0</b>

    机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 —
    的头像 发表于 03-14 16:54 1988次阅读
    大<b class='flag-5'>晓</b><b class='flag-5'>机器人</b><b class='flag-5'>开源</b>实时生成世界<b class='flag-5'>模型</b>Kairos 3.0-4B

    资讯速递 | 具身智能PMC(筹)发布“零成本”开源鸿蒙智能机器人系统

    面向具身智能机器人系统与应用开发,Ubuntu 等操作系统可以用 ROS2 生态、机器人仿真器、英伟达算力。 然而在国产化方面,开源鸿蒙操作系统缺失 ROS2 支持、缺失与
    的头像 发表于 01-05 16:24 788次阅读
    资讯速递 | 具身<b class='flag-5'>智能</b>PMC(筹)发布“零成本”<b class='flag-5'>开源</b>鸿蒙<b class='flag-5'>智能</b><b class='flag-5'>机器人</b>系统

    机器人发布开悟3.0,国产世界模型机器人拥有“超级大脑”

    机器人的使命就是让每个机器人都拥有一个聪明的大脑,洞察万物,学会与视觉精准交互。   在此背景下,大机器人凭借其原创的“世界模型”技术体系
    的头像 发表于 12-25 09:25 2753次阅读
    大<b class='flag-5'>晓</b><b class='flag-5'>机器人</b>发布开悟3.0,国产世界<b class='flag-5'>模型</b>让<b class='flag-5'>机器人</b>拥有“超级大脑”

    中科曙光与商汤科技、大机器人达成战略合作

    12月18日,在首届光合组织人工智能创新大会(HAIC2025)主论坛上,中科曙光与商汤科技、大机器人正式达成战略合作。
    的头像 发表于 12-23 15:10 518次阅读

    商汤科技联合创始刚担任大机器人董事长

    机器人将于12月18日正式亮相,重磅发布多项全球领先的技术与产品阵列,并将推出首个国内开源且实现商业应用的“开悟”世界模型3.0,与行业伙伴一同构建自主可控、开放共赢的产业体系。商
    的头像 发表于 12-08 11:31 803次阅读

    探索RISC-V在机器人领域的潜力

    应用,特别是机器人操作系统领域的可行性。MUSE Pi Pro以其强大的K1 AI CPU和官方对主流开源软件栈的积极适配,成为了一个非常有吸引力的选择。 二、 硬件初窥:性能小钢炮 MUSE Pi Pro
    发表于 12-03 14:40

    开源鸿蒙驱动机器人与AI产业生态发展,M-Robots OS正式开源

    7月24日,2025开放原子开源生态大会——开源鸿蒙助力机器人与人工智能产业生态发展论坛在北京顺利举行,本次分论坛聚焦机器人和人工
    的头像 发表于 07-26 14:20 1355次阅读
    <b class='flag-5'>开源</b>鸿蒙驱动<b class='flag-5'>机器人</b>与AI产业生态发展,M-Robots OS正式<b class='flag-5'>开源</b>

    工业机器人的特点

    的基础,也是三者的实现终端,智能制造装备产业包括高档数控机床、工业机器人、自动化成套生产线、精密仪器仪表、智能传感器、汽车自动化焊接线、柔性自动化生产线、智能农机、3D 打印机等领域。
    发表于 07-26 11:22

    全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式开源

    机器人操作系统M-RobotsOS,推动机器人行业生态融合、能力复用、智能协同。构建机器人共通语言解决产业协同难题机器人行业正面临两大关键挑
    的头像 发表于 07-24 10:56 1191次阅读
    全国首个<b class='flag-5'>开源</b>鸿蒙<b class='flag-5'>机器人</b>操作系统 M-Robots OS 正式<b class='flag-5'>开源</b>

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    在人工智能快速发展的今天,语音机器人逐渐成为人们生活和工作中的得力助手。明远智睿SSD2351开发板凭借强大性能与丰富功能,为语音机器人的发展注入新动力,成为该领域的变革力量。 SSD2351开发板
    发表于 05-28 11:36

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    视觉巡线,展示了如何从数据采集、模型训练到机器人部署的完整流程。 值得注意的是,深度学习模型的实时性对机器人计算资源提出了较高要求,优化模型
    发表于 05-03 19:41

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    ROS的全称:Robot Operating System 机器人操作系统 ROS的 目的 :ROS支持通用库,是通信总线,协调多个传感器 为了解决机器人里各厂商模块不通用的问题,让
    发表于 04-30 01:05

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    全球80多个国家和地区。 近日,大象机器人联合进迭时空推出全球首款RISC-V全栈开源六轴机器臂“myCobot 280 RISC-V”,为开发者打造全新的机器人
    发表于 04-25 17:59