0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大晓机器人开源实时生成世界模型Kairos 3.0-4B

商汤科技SenseTime 来源:商汤科技SenseTime 2026-03-14 16:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的开源具身原生世界模型,该模型以 “物理因果一致、跨本体泛化、超长时交互、云侧实时生成、轻量化高效能、端侧本体控制” 为核心优势,性能全面领跑国内外主流具身世界模型。

Kairos 3.0-4B 是全球首个可端侧驱动具身智能本体控制的世界模型,也是行业内首个在 THOR 端侧平台达成 1:1.5(视频生成时间:视频时长)实时生成的具身世界模型。该模型部署于Jetson Thor T5000 端侧平台,算力可达517 TFlops,不仅能在 3D 仿真环境中精准生成机械臂运动形态、完成运动轨迹的预测与规划,更可依托 THOR 端侧平台实现机器人本体的真实驱动与作业执行,让机器人真正从“会表演”走向“能干活”。

在全球权威具身智能 Benchmark 评测中,Kairos 3.0-4B 各项指标全面领先。在 A800 GPU Benchmark 中,基于模型能力和推理工具,Kairos 3.0-4B 的推理速度较 Cosmos 2.5 提升 72 倍,刷新全球具身世界模型性能纪录,充分验证了其硬核技术实力。

Kairos 3.0-4B 兼具通用世界模型能力与具身场景深度赋能优势。在通用场景下,该模型可生成高度还原的真实物理世界,以黄果树瀑布为例,其能精准呈现自然光影效果,支持流畅运镜且无画面跳帧,云、水、叶片等元素均可实现动态演化;同时,模型深度适配具身智能需求,凭借双重能力打通数字仿真与物理执行,以中国自研核心技术破解行业核心痛点,为具身智能规模化落地提供核心引擎,成为具备全球竞争力的具身世界模型标杆。

以原生世界模型架构,筑牢具身智能对物理世界的底层认知

当前,具身智能行业深陷数据稀缺且割裂的困境,传统生成式模型仅侧重视频生成,缺乏对物理世界的深度认知,因此面临长时序交互不足、部署算力成本高昂、状态预测物理一致性差等行业瓶颈。

作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的开源具身原生世界模型,Kairos 3.0-4B 与市面上 “大模型改款” 的生成式模型有着本质区别。该模型并非在大语言或视觉模型后简单附加运动接口,而是从架构底层为机器人在真实世界的运行进行设计,以自然界基本物理规律与因果规律为认知根基,构建起跨本体的统一世界理解框架,彻底打破传统具身智能 “行为模仿” 的技术局限,将模型能力升级至 “物理级深度理解” 的全新维度。

2256ad62-1e89-11f1-90a1-92fbcf53809c.png

围绕 “理解世界、生成世界、预测世界” 三大核心能力,Kairos 3.0-4B 将物理规律与因果思维链深度嵌入模型决策过程,让模型做到 “知其然更知其所以然”。其核心突破在于深度融合机器人真机交互、人类行为结构化与思维链文本三类关键数据,有效打破多元数据壁垒,大幅提升真实世界数据的复用效率,显著优化具身智能的尺度定律效率。

22b10f0a-1e89-11f1-90a1-92fbcf53809c.png

得益于原生架构的优势,该模型不再依赖昂贵且稀缺的真机数据,而是通过内化物理规律、推演因果逻辑,在更优的模型与数据规模下,实现强泛化、长时序推理与可靠的端侧部署。它能精准解析物体受力、重心、摩擦等物理约束,完成复杂任务的推理、规划与可行性分析,兼容多模态传感器指令,高效理解机器人动作与人类行为逻辑,实现从 “执行指令” 到 “理解任务” 的本质跨越。

在复杂交互场景的实测中,机器人可平稳端起盛有水的托盘,运动过程中水面呈现自然真实的水波动态;将托盘放置桌面后,模型凭借任务思维链自主规划,精准判断牛奶苹果的摆放位置,有序将物品规整放置于托盘之上。

物理因果一致性全面领先全球主流模型

在倒水、叠平衡石等具有一定难度的物理交互场景中,Kairos 3.0-4B 凭借原生世界模型的物理因果一致性优势,通过内化物理规律与因果思维链,实现了物理因果一致性全面领先主流具身世界模型,展现出对真实世界规则的深度理解与精准复现。

在倒水场景中,Kairos 3.0-4B 控制机器人将水从水杯倒入水槽时,水流速度平稳且液体总量严格匹配水杯容量,完全符合质量守恒与流体动力学规律;而 Cosmos 2.5 与 Lingbot 在该场景中则出现水流速度过快的问题,甚至出现液体总量远超水杯实际容量的异常情况,物理逻辑严重失真。

在叠平衡石场景中,Kairos 3.0-4B 精准复现了石头的刚性与力学平衡特性,每一块石头的堆叠都严格遵循重力与支撑结构的物理规律;Cosmos 2.5 生成的石头出现悬浮现象,Lingbot 的石头则丧失刚性属性,最底层的石头甚至凭空消失,物理一致性彻底崩塌。

7分钟长时连贯场景动态交互

在具身智能领域,长时序视频生成始终是制约技术落地的核心瓶颈。

凭借 “多模态理解 — 生成 — 预测” 一体化架构,大晓机器人推出的 Kairos 3.0-4B,可结合Agent智能体技术,在长时序视频生成能力上实现颠覆性突破。Kairos智能体可将用户复杂交互指令进行层级化解析与结构化拆解,依托模型对序列间的时空演化、物理规则、场景动态及交互逻辑精细化预测,补全连续世界信息,并通过自我反思机制实现闭环迭代优化。最终生成长达 7 分钟的具身动态交互视频,且全程保持场景连贯与物理真实,为具身智能的训练与落地开辟了全新路径。

在家庭场景 Demo 中,机器人实现全流程一镜到底的自主作业:先有序整理桌面上的杯子与纸巾盒,规划合适位置摆放物品,随后自主进入洗衣机,捡拾衣服,打开洗衣机、完成衣物投放与清洗操作;接着穿过客厅进入厨房,开启冰箱取出牛奶,打开壁橱取出麦片,并打开抽屉取出碗与勺子,将麦片和牛奶倒入碗中,自主完成早餐制备。整个过程无断点,真实展现了模型的流畅动态交互、物体属性识别、符合物理规则的受力操控、柔性衣物物理表征能力,并依托完整任务思维链实现多场景自主规划与连贯执行,验证了模型在复杂家居环境下的物理认知、长时序推理与动态交互能力,后续将持续提升超精细操作能力。

这一能力让具身智能能够从容应对多场景下的复杂动态任务。无论是工业制造中的长流程装配,还是家庭服务中的持续交互,Kairos 3.0-4B 都能生成连贯、真实的场景模拟,显著提升模型的泛化能力与部署可靠性,推动具身智能从实验室走向产业一线。

以轻量化实现高效能推理速度

Kairos 3.0-4B 模型凭借架构创新与技术突破,在推理效率、算力消耗、部署适配三大维度均实现业界领先,同时彻底突破具身智能端侧实时部署的核心瓶颈。

Kairos 3.0-4B 在行业内率先实现云侧 1:1 实时推理,推理速度较 Cosmos 2.5 提升 72 倍。同时,它也是行业首个在 THOR 平台端侧部署的具身世界模型,可在端侧实现高效实时推理。依托端侧部署,模型可直接输出机器人从上肢到手指再到下肢的全方位控制指令,省去中间转译环节,让机器人 “想到即可做到”。

在 A800 GPU 性能 Benchmark 中,Kairos 3.0-4B 凭借自研的混合时间线性注意力算子,实现了算力效率与推理速度的数量级突破,性能全面碾压主流具身世界模型。

推理速度上,Kairos 3.0-4B 完成10秒生成任务耗时仅 9.5 秒,比 Cosmos 2.5(687.2 秒)快约 72 倍,比 Wan 2.2(85 秒)快约 9 倍,比 Lingbot(1436 秒)快约 151 倍。

Kairos 3.0-4B 以 4B 轻量化参数实现 23.5GB 显存占用,与 5B 的 Wan 2.2 相当,远低于 14B 的 Cosmos(70.2GB)和 28B 的 Lingbot(46.1GB),在保持极致性能的同时,大幅降低部署门槛,完美适配具身智能端侧实时推理需求,打破 “大参数 = 高性能” 的行业固有认知。

230a4228-1e89-11f1-90a1-92fbcf53809c.jpg

Kairos 3.0-4B 凭借极低的算力消耗与显存占用,在单卡、多卡环境下均实现业界领先的实时推理速度,完美适配英伟达、沐曦、海光、壁仞等多款 GPU。其高效能特性可直接满足具身智能系统低延迟、高可靠、端侧实时部署的需求,无需依赖昂贵的真机数据,即可实现强泛化与可靠部署。

一脑多形,实现多本体泛化新高度

Kairos 3.0-4B 模型另一大核心优势是强大的多本体泛化能力,彻底破解了传统具身模型 “一本体一训练” 的行业痛点,实现 “同一大脑适配多本体、多任务” 的高效落地。

Kairos 3.0-4B 支持跨本体任务一键生成,可无缝适配单臂、双臂、灵巧手等不同形态的机器人本体,针对同一任务无需额外训练,即可快速生成适配各本体的执行策略,实现世界知识的高效共享与迁移,适配性拉满。在硬件兼容上,模型深度支持智元 - 精灵 G1、松灵 - PIPER、宇树 G1 等主流机器人硬件,打破不同厂商、不同形态设备的本体壁垒。

权威Benchmark性能全面领跑

Kairos 3.0-4B 模型在全球权威具身智能与世界模型评测基准中展现出压倒性的综合性能,在具身场景实现全面领跑,精准验证了其 “物理级深度理解 + 高效能架构” 的核心优势。

在具身场景中,Kairos 3.0-4B 在三项权威 Benchmark 中均实现性能领跑:

PAI-Bench-robot(物理 AI 具身综合基准):由佐治亚理工学院与卡内基梅隆大学联合开发,是物理 AI 领域首个针对具身场景的综合评测框架,覆盖 2808 个真实世界案例,被全球顶尖团队广泛采用。

Kairos 3.0-4B以80.03分领跑,全面超越 Cosmos 2.5-2B(78.3 分)、阿里Wan 2.2-5B(78.6 分)、Cosmos 2.5-14B(79.4分)及蚂蚁 Lingbot(79.96分),验证了其在具身任务执行、物理交互稳定性上的行业第一地位。

WorldModelBench-robot TI2V(文本到具身视觉生成基准):在CVPR 2025 Workshop提出,是首个专门评估世界模型文本到具身视觉生成能力的基准,通过 67K 人类标注数据精准检测物理一致性与指令遵循能力。

Kairos 3.0-4B以9.08分超越所有竞品,显著领先阿里Wan 2.2-5B(8.52分)、Cosmos 2.5-14B(8.94分),以及Cosmos 2.5-2B、蚂蚁Lingbot(均为9.04分),证明其在长时序物理场景理解与生成精度上的领先性。

DreamGen Bench (PA/IF)(机器人视频生成基准):由 NVIDIA GEAR Lab 开发,通过物理对齐(PA)与交互保真(IF)两项核心指标,直接评估模型生成数据的物理合理性与交互质量,是机器人领域的权威评测工具。

Kairos3.0-4B的PA得分为0.529,大幅领先阿里Wan 2.2-5B(0.314),提升近70%;同时领先Cosmos 2.5-2B(0.418)、Cosmos 2.5-14B(0.495)、蚂蚁Lingbot(0.466),分别提升27%、7% 和14%。IF得分为0.609,同样全面超越竞品,相较于Cosmos 2.5-2B、阿里Wan2.2-5B、Cosmos 2.5-14B、蚂蚁Lingbot,分别提升7%、12%、27%和7%,直接验证了其物理因果一致性的核心优势。

235d8820-1e89-11f1-90a1-92fbcf53809c.jpg

23b456a0-1e89-11f1-90a1-92fbcf53809c.png

*(上述精度测试基于开源模型复现,其中robot为对应具身子集的结果)

作为中国自研的原生具身世界模型,Kairos 3.0-4B 直击行业数据、算力、物理推理与落地部署等核心瓶颈。该模型既可作为高效数据仿真器,低成本、规模化放大训练数据体量,有效破解真机交互数据稀缺的行业痛点;更能跳出纯仿真应用范畴,直接驱动机器人本体完成各类实体任务,真正打通从虚拟仿真到物理执行的全链路,让机器人拥有聪明的“大脑”,加速具身智能智慧跃迁,为具身智能的规模化落地提供核心技术支撑,为全球具身智能行业发展贡献了领先的中国方案。

该技术成果已上传:

Code:

https://github.com/kairos-agi/kairos-sensenova

Hugging Face:

https://huggingface.co/kairos-agi/kairos-sensenova-common

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31391

    浏览量

    223550
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253
  • 商汤科技
    +关注

    关注

    8

    文章

    618

    浏览量

    37670

原文标题:72倍推理提速、7分钟长视频生成!大晓机器人开源实时生成世界模型 Kairos 3.0-4B

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤大装置联合大机器人与广西产业技术研究院达成战略合作

    近日,商汤大装置联合大机器人与广西产业技术研究院达成战略合作,就AI基础设施建设、具身数据采集、世界模型研发、机器人应用场景拓展等领域达成
    的头像 发表于 03-20 17:40 1790次阅读

    机器人开源空间智能通用模型ACE-Brain-0

    近日,大机器人联合上海交通大学、南洋理工大学、香港中文大学、香港大学等研究机构共同推出以空间智能为底层框架、跨不同具身本体的通用基础模型“ACE-Brain-0”,正式面向全行业开源
    的头像 发表于 03-11 13:45 338次阅读
    大<b class='flag-5'>晓</b><b class='flag-5'>机器人</b><b class='flag-5'>开源</b>空间智能通用<b class='flag-5'>模型</b>ACE-Brain-0

    NVIDIA Cosmos世界基础模型如何塑造机器人未来

    在这一演进过程中,世界模型逐渐成为连接高层智能与底层执行的关键基础设施。通过对环境状态及其时间演化进行建模,世界模型使机器人系统能够在受控环
    的头像 发表于 01-22 16:38 789次阅读
    NVIDIA Cosmos<b class='flag-5'>世界</b>基础<b class='flag-5'>模型</b>如何塑造<b class='flag-5'>机器人</b>未来

    机器人发布开悟3.0,国产世界模型机器人拥有“超级大脑”

    机器人的使命就是让每个机器人都拥有一个聪明的大脑,洞察万物,学会与视觉精准交互。   在此背景下,大机器人凭借其原创的“世界
    的头像 发表于 12-25 09:25 2755次阅读
    大<b class='flag-5'>晓</b><b class='flag-5'>机器人</b>发布开悟<b class='flag-5'>3.0</b>,国产<b class='flag-5'>世界</b><b class='flag-5'>模型</b>让<b class='flag-5'>机器人</b>拥有“超级大脑”

    借助NVIDIA Isaac Sim与World Labs Marble加速机器人仿真环境构建

    的虚拟世界。将开源机器人参考框架 NVIDIA Isaac Sim 与生成模型,比如 World Labs 推出的 Marble 等相结合
    的头像 发表于 12-24 10:28 1683次阅读

    机器人与沐曦股份签署战略合作协议

    12月18日,大机器人与沐曦股份正式签署战略合作协议,依托双方核心资源禀赋,聚焦技术创新、产品研发、生态构建、商业落地等领域,开悟世界模型3.0
    的头像 发表于 12-24 09:11 2403次阅读

    中科曙光与商汤科技、大机器人达成战略合作

    12月18日,在首届光合组织人工智能创新大会(HAIC2025)主论坛上,中科曙光与商汤科技、大机器人正式达成战略合作。
    的头像 发表于 12-23 15:10 518次阅读

    商汤科技联合创始刚担任大机器人董事长

    机器人将于12月18日正式亮相,重磅发布多项全球领先的技术与产品阵列,并将推出首个国内开源且实现商业应用的“开悟”世界模型
    的头像 发表于 12-08 11:31 804次阅读

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

    科研人员及开发者打造功能更强大、适应性更强的机器人。   全新的 NVIDIA Isaac GR00T 开源基础模型将为机器人赋予接近人类的推理能力,使其能够拆解复杂指令,并借助已有知
    的头像 发表于 09-30 09:52 3198次阅读
    NVIDIA 利用全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>与仿真库加速<b class='flag-5'>机器人</b>研发进程

    利用NVIDIA Cosmos模型训练通用机器人

    机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础
    的头像 发表于 08-05 16:22 2237次阅读
    利用NVIDIA Cosmos<b class='flag-5'>模型</b>训练通用<b class='flag-5'>机器人</b>

    开源鸿蒙驱动机器人与AI产业生态发展,M-Robots OS正式开源

    M-RobotsOS项目发布仪式等重要环节,汇聚全球开发者智慧,全力打造机器人领域的新生态,促进产业链上下游企业的协同创新发展。开放原子开源基金会理事长程明程
    的头像 发表于 07-26 14:20 1357次阅读
    <b class='flag-5'>开源</b>鸿蒙驱动<b class='flag-5'>机器人</b>与AI产业生态发展,M-Robots OS正式<b class='flag-5'>开源</b>

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    的四核1.4GHz处理器具备强劲的运算性能,能够高效处理语音机器人运行过程中的复杂任务。语音识别和合成需要大量的计算资源,该处理器可以快速对语音信号进行分析、处理和转换。在实时语音交互场景中,无论是
    发表于 05-28 11:36

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    视觉巡线,展示了如何从数据采集、模型训练到机器人部署的完整流程。 值得注意的是,深度学习模型实时性对机器人计算资源提出了较高要求,优化
    发表于 05-03 19:41

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    ROS的全称:Robot Operating System 机器人操作系统 ROS的 目的 :ROS支持通用库,是通信总线,协调多个传感器 为了解决机器人里各厂商模块不通用的问题,让机器人快速开发
    发表于 04-30 01:05

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    末端执行器。 全栈开源 从RISC-V指令集、芯片SDK到机器人控制代码100%开放,开发者可自由定制算法与控制逻辑。 官方apt仓库提供deepseek-r1-distill-qwen-1.5b
    发表于 04-25 17:59