0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

地平线五篇论文入选NeurIPS 2025与AAAI 2026

地平线HorizonRobotics 来源:地平线HorizonRobotics 2025-11-27 11:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,两大顶级学术会议录用结果相继揭晓,地平线凭借在机器人算法领域的深度钻研,共有5篇论文从全球数万份投稿中脱颖而出,分别入选NeurIPS 2025与AAAI 2026。

作为人工智能领域公认的CCF A类顶会,NeurIPS与AAAI是全球算法创新的“风向标”。NeurIPS侧重神经计算与机器人自主学习,AAAI聚焦人工智能全领域突破,二者录用率常年维持在25%以下,AAAI 2026最终录用率仅17.6%,竞争强度空前。此次地平线5篇论文入选,是其技术实力的又一力证。其中,聚焦多模态融合技术的IGFuse论文更以卓越创新性斩获AAAI 2026 Oral资格。

地平线此次入选的论文,均围绕机器人在虚拟数据生成、导航和通用操作的核心难题展开,覆盖可交互重建、3D生成、具身思维链和人类数据预训练等领域的前瞻技术,为推动具身智能的发展和应用做出贡献。

IGFuse

“补全”被遮挡的世界,重建可交互3D空间(入选AAAI 2026 Oral)

• 论文名称:

IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion

• 论文链接:

https://arxiv.org/pdf/2508.13153

• 项目主页:

https://whhu7.github.io/IGFuse/

计算机视觉和机器人领域,如何完整、真实地重建一个可交互的三维场景,一直是一个难题。传统方法往往依赖复杂的多阶段流程,比如先做分割,再进行背景补全或修复,或者需要对每个物体进行密集扫描。这些方式不仅成本高、容易出错,而且很难扩展到大规模的应用场景。

我们提出的IGFuse提供了一种新的思路:通过多次场景扫描的融合来重建三维高斯场景。在不同扫描中,物体布局的自然移动能够“揭示”那些在单次扫描里被遮挡的区域,从而帮助恢复完整的场景。为了保证重建的质量,我们构建了分割感知的高斯场,并在不同扫描之间保持光度和语义上的一致。同时,我们设计了一种伪中间场景状态来解决多次扫描之间的对齐问题,并通过协同剪枝策略不断优化几何结构。

7c4f6158-cad1-11f0-8c8f-92fbcf53809c.png

得益于这些设计,IGFuse可以在不依赖密集观测和繁琐流程的情况下,实现高保真的渲染和物体级别的场景交互。大量实验验证了它在不同场景下的泛化能力,也展示了在真实三维重建和从真实到仿真的迁移中强大的应用潜力。

未来,该方法将作为一种融合式重建的范式持续演进,重点拓展到更加复杂和多样的场景中,特别是面向长序列观测下的高质量融合重建。这不仅为真实环境中的持续感知与状态合成提供了坚实基础,也为具身智能体在长期交互和复杂任务中的应用开辟了新的可能。

更多可阅读:《“补全”被遮挡的世界:IGFuse利用场景变化照片重建可交互3D空间》

DIPO

双状态图像可控生成活动关节3D资产(入选NeurIPS 2025)

• 论文题目:

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data

• 论文链接:

https://arxiv.org/abs/2505.20460

项目主页:

https://rq-wu.github.io/projects/DIPO/

活动关节3D资产是具身智能仿真交互场景的核心组成部分,然而受限于其运动学关系的复杂性,高质量可用资产极为稀缺。DIPO旨在借助3D生成技术,以低成本、高可控的方式获取多样化活动关节3D资产,破解这一行业痛点。

现有方法普遍依赖单图像输入,难以有效捕捉物体部件间的运动关联,导致生成结果在结构合理性与运动一致性上存在明显短板,无法满足复杂场景的应用需求。为此,我们提出的DIPO方案开辟新的解决路径:通过输入物体“静止状态图”与“关节活动状态图”这一对双态图像,编码关键运动信息。设计双图像扩散模型,精准捕捉图像对间的关联特征,进而生成可靠的部件布局与关节参数。同时引入基于思维链 (CoT) 的图推理器,推断部件间的铰链关系,大幅提升结构理解的准确性。为增强模型对复杂物体的泛化能力,我们构建了自动化数据集增广流程,并发布了大规模数据集PM-X,为模型训练提供充足支撑。

7cbad7f8-cad1-11f0-8c8f-92fbcf53809c.png

实验表明,DIPO在活动关节3D资产生成任务中显著超越现有基准模型,仅需两张图像即可实现高保真、高可控的关节式3D物体生成。该方法为具身智能仿真领域提供了高效的铰链3D物体生成解决方案,尤其适用于需精准控制部件运动的核心场景。

更多可阅读:《DIPO:应用于具身智能仿真的3D铰链物体生成新范式》

AuxThink

视觉语言导航任务的推理范式(入选NeurIPS 2025)

• 论文题目:

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

• 论文链接:

https://arxiv.org/abs/2505.11886

项目主页:

https://horizonrobotics.github.io/robot_lab/aux-think/index.html

视觉语言导航 (VLN) 任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习中的作用,并首次揭示了VLN中的“推理崩塌”现象。研究发现:无论是行动前推理 (Pre-Think) ,还是行动后推理 (Post-Think) ,一旦在测试阶段显式生成推理链,反而更容易让机器人迷失方向。

Aux-Think提出一种更实用的路径:在训练阶段引入推理任务作为辅助监督,引导模型习得更清晰的决策逻辑;而在测试阶段,则彻底省去推理生成,直接进行动作预测。把推理用在该用的地方,模型在任务中反而更快、更准、更省。Aux-Think不仅有效避免了测试阶段的推理幻觉,也为“推理应在何时、如何使用”提供了清晰答案,进一步拓展了数据高效导航模型的能力边界。

7d1937d0-cad1-11f0-8c8f-92fbcf53809c.png

Aux-Think为解决测试阶段推理引发的导航问题提供了新的思路。通过在训练阶段引入推理指导,在测试阶段去除推理负担,Aux-Think能够让机器人更加专注于任务执行,从而提高其导航稳定性和准确性。实验表明,Aux-Think在数据效率与导航表现方面优于当前领先方法。这一突破性进展将为机器人在实际应用中的表现奠定更为坚实的基础,也为具身推理策略提供了重要启示。

更多可阅读:《Aux-Think:为什么测试时推理反而让机器人「误入歧途」?》

MonoDream

视觉语言导航任务的想象力机制(入选AAAI 2026)

• 论文题目:

MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming

• 论文链接:

https://arxiv.org/abs/2508.02549

项目主页:

https://horizonrobotics.github.io/robot_lab/monodream/

传统VLN方法普遍依赖全景RGB-D传感器,以获得全方位视野和几何线索,但这种方案成本高、功耗大、系统复杂。相比之下,单目相机虽然普及易部署,却长期被认为“能力不足”。MonoDream提出了另一条路径——不靠增强传感器,而是激发大模型中潜藏的“时空想象力”。这一思路与认知科学高度契合:预测编码理论与神经影像研究都指出,人类能凭局部视觉主动重建不可见空间,并用于规划行动。

MonoDream通过统一导航表征 (UNR) 与隐式全景想象 (Latent Panoramic Dreaming,LPD) ,在训练过程中逼迫模型仅凭单目画面推测出完整的RGB-D潜特征,形成全景结构理解与未来路径预测。关键在于,这种“想象”并不是额外生成模块,而是直接融入导航决策逻辑,成为模型内部的结构认知。进入部署阶段后,MonoDream无需全景、无需深度、无需显式重建——仅用一枚普通相机即可决策。

7d788230-cad1-11f0-8c8f-92fbcf53809c.png

实验表明,MonoDream在R2R-CE与RxR-CE中以单目取得SOTA表现,显著缩小与全景方案的差距,证明单目瓶颈不在传感器,而在想象力的缺失。MonoDream重新定义了单目能力边界,并指出一种未来路径:具身智能将不一定需要依赖传感器增强,而通过内在世界模型与想象推演也能实现自主决策与探索。

更多可阅读:《MonoDream:机器人仅凭单目相机,也能通晓全景、洞悉深度和预见未来》

H-RDT

基于人类操作数据的跨本体机器人学习(入选AAAI 2026)

• 论文题目:H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

• 论文链接:

https://arxiv.org/abs/2507.23523

项目主页:

https://embodiedfoundation.github.io/hrdt

机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR/AR头显和3D视觉技术的显著进步,当前只需极低成本即可采集大量带有精确人手关节标注的第一人称人类操作视频。

为此,我们提出基于大规模人类操作数据预训练的VLA模型H-RDT (Human to Robotics Diffusion Transformer) 。H-RDT是一个具有20亿参数的扩散Transformer,使用流匹配来建模双臂机器人的复杂动作分布。H-RDT采用两阶段训练范式:1)在大规模第一人称人类数据上预训练;2)通过模块化动作编解码器在机器人数据上进行微调,实现跨本体迁移。实验表明,H-RDT在仿真和真实场景中的多种本体上表现优异,对比主流VLA模型具有明显优势。

7dcd5e9a-cad1-11f0-8c8f-92fbcf53809c.jpg

H-RDT模型的跨本体迁移能力与少样本学习效率,为机器人在不同场景下的快速适应与高效操作提供了可能,有望推动智能家居、工业制造、医疗护理等多领域的智能化应用升级。H-RDT模型曾参加CVPR 2025 RoboTwin双臂机器人比赛获真机赛冠军。

更多可阅读:《H-RDT:基于人类操作数据的跨本体机器人学习》

关于地平线机器人实验室

地平线机器人实验室是地平线三大创新实验室之一,聚焦具身智能基础算法和框架的研发,推动通用机器人的实现。团队具有Manipulation、Mobility和Real2Sim三个主要研究方向,致力于探索机器人技术的工业化落地。

团队在CVPR、NeurIPS、IROS、AAAI等顶尖学术会议发表论文20余篇,已开源的代码库获收藏超1000次。曾获张江国际人形机器人技巧挑战赛双臂协作仿真赛第一名,CVPR2025 RoboTwin双臂协作真机赛第一名。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30578

    浏览量

    219432
  • 计算机
    +关注

    关注

    19

    文章

    7763

    浏览量

    92666
  • 地平线
    +关注

    关注

    0

    文章

    429

    浏览量

    16111

原文标题:机器人算法新突破,地平线5篇论文被学术顶会NeurIPS 2025、AAAI 2026录用

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    地平线HSD量产先锋品鉴会圆满落幕

    2025年11月19日-24日,地平线在广州举办Drive on Horizon·HSD量产先锋品鉴会。首搭地平线HSD及征程6P的星途ET5、搭载征程6的深蓝L06开启辅助驾驶体验,以出色的实际
    的头像 发表于 11-27 11:27 231次阅读

    后摩智能六论文入选四大国际顶会

    2025年以来,后摩智能在多项前沿研究领域取得突破性进展,近期在NeurIPS、ICCV、AAAI、ACMMM四大国际顶会上有 6 论文
    的头像 发表于 11-24 16:42 670次阅读
    后摩智能六<b class='flag-5'>篇</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b>四大国际顶会

    理想汽车12论文入选全球大AI顶会

    2025年三季度以来,理想汽车基座模型团队在国际顶级AI学术会议上取得重大突破,共有12高质量研究论文入选AAAI
    的头像 发表于 11-21 14:44 397次阅读
    理想汽车12<b class='flag-5'>篇</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b>全球<b class='flag-5'>五</b>大AI顶会

    Nullmax端到端轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的端到端轨迹规划论文成功入选。该
    的头像 发表于 11-12 10:53 524次阅读

    思必驰与上海交大联合实验室论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,思必驰-上海交大联合实验室共有5论文被收录。
    的头像 发表于 10-23 15:24 554次阅读
    思必驰与上海交大联合实验室<b class='flag-5'>五</b><b class='flag-5'>篇</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b><b class='flag-5'>NeurIPS</b> <b class='flag-5'>2025</b>

    地平线与哈啰正式签署战略合作协议

    9月11日,在2025Inclusion·外滩大会上,地平线与哈啰正式签署战略合作协议。双方将基于Robotaxi运营场景和需求,发挥各自技术优势,共同打造极致低成本、高安全、高可靠、高可用的智能
    的头像 发表于 09-12 14:25 709次阅读

    格灵深瞳六论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6论文入选
    的头像 发表于 07-07 18:23 1300次阅读

    后摩智能四论文入选三大国际顶会

    2025 年上半年,继年初被 AAAI、ICLR、DAC 三大国际顶会收录 5 论文后,后摩智能近期又有 4
    的头像 发表于 05-29 15:37 1088次阅读

    Arm携手地平线推动汽车智能化变革

    近日,地平线在上海举办了 2025 年度产品发布会,推出了 L2 城区辅助驾驶系统——地平线 HSD,不仅集中展示了自身领先的技术实力,更深刻诠释了汽车智能化加速普及的产业发展趋势,成为上海车展的前哨。
    的头像 发表于 04-28 14:28 1096次阅读

    地平线城区辅助驾驶系统HSD解读

    近日,在2025地平线年度产品发布会上,地平线城区辅助驾驶系统HSD正式发布。作为国内首个软硬结合全栈开发的城区辅助驾驶系统,地平线HSD搭载当前最高性能的国产智驾计算方案征程6P,采
    的头像 发表于 04-22 14:44 1289次阅读

    地平线推出L2城区辅助驾驶系统HSD

    近日,以“征程所向,远超想象”为主题的2025地平线年度产品发布会在上海滴水湖举行。地平线重磅推出L2城区辅助驾驶系统——地平线HSD,构建体验“类人”、用户“信任”的城区辅助驾驶新解
    的头像 发表于 04-19 09:14 765次阅读

    地平线与上汽集团深化战略合作

    近日,上汽集团举办“懂车更懂你·2025上汽之夜”活动,地平线创始人兼CEO余凯博士受邀发表主旨演讲。作为地平线第一大机构股东,上汽集团在发布会上表示将继续拓展与地平线等头部企业的合作
    的头像 发表于 04-12 09:07 902次阅读

    地平线SuperDrive相关问答

    近日,地平线SuperDrive智驾百人团体验活动圆满落幕,现场130余家媒体对地平线SuperDrive表现出浓厚的兴趣并提出了诸多问题。对此,地平线特意整理了大家提出的典型问题并进行解答,希望能帮助大家更全面地了解这套拟人的
    的头像 发表于 01-21 10:15 856次阅读

    地平线SuperDrive首发三大黑科技,决胜智能化竞争下半场

    地平线创始人兼CEO余凯表示:“在2025年,地平线智能计算方案即将迈过1000万量产大关,持续引领中国智驾量产落地、推动智驾生态繁荣生长,‘向下扎深根’。与此同时,地平线SuperD
    的头像 发表于 01-15 09:12 1952次阅读
    <b class='flag-5'>地平线</b>SuperDrive首发三大黑科技,决胜智能化竞争下半场

    地平线SuperDrive首发三大黑科技

    近日,“Beyond the Horizon 地平线智驾科技畅想日”在上海举办,回顾地平线以软硬结合技术实力取得的量产创新成果,展望2025高阶智驾爆发之年。同时,“SuperDrive智驾百人团体验活动”在上海静安区繁华路段开
    的头像 发表于 01-14 13:56 818次阅读