0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3D-Fixer框架基于原位补全重构单图3D场景生成流程

地平线HorizonRobotics 来源:地平线HorizonRobotics 2026-05-19 09:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

3D-Fixer

打破重建与生成边界

基于原位补全开启 3D 场景生成新范式

基于单张图像生成完整三维场景,是构建物理世界数字孪生的关键问题。现有方法在复杂场景中普遍面临两方面瓶颈:一是受遮挡等因素影响,几何重建往往不完整;二是依赖显式姿态对齐,易引发误差累积与结构错位。此外,高质量且多样化的场景级数据稀缺,也进一步限制了模型的泛化能力。近期三维基础模型(如 VGPT、Pi3)已具备一定的可泛化前馈几何重建能力,但由于缺乏物体级理解与生成能力,难以直接用于构建可交互的三维场景。

为此,我们提出 3D-Fixer 框架,其核心在于引入“原位补全(In-place Completion)”范式。该范式摒弃传统显式位姿对齐流程,以 3D 基础模型预测的残缺几何为空间锚点,在 3D 空间中直接完成三维生成与几何补全。在维持全局布局一致性的同时,协同优化空间定位精度与单体完整性,消除了迭代对齐导致的误差累积。

架构设计方面,3D-Fixer 采用由粗到精(Coarse-to-Fine)分阶段生成策略,并引入遮挡鲁棒特征对齐机制。通过融合预训练生成先验与几何观测,模型在遮挡条件下亦能稳定恢复场景结构,有效缓解边界模糊。数据层面,针对场景级训练数据缺口,本文构建并开源了大规模组合式数据集 ARSG-110K,包含 11 万个程序化复杂场景与 300 万张具备高保真三维标注的图像。

实验表明,3D-Fixer 仅依托自主构建的 ARSG-110K 数据集完成训练,即在多项核心评测指标上显著优于现有基准方法,在维持前馈推理效率的同时,有效提升了几何重建精度与模型泛化性。目前,该论文已被 CVPR 2026 录用,配套代码、数据集及项目主页均已全面公开。本工作为低成本构建可交互数字孪生环境提供了新的技术路径,期望推动具身智能系统的大规模泛化与实际落地。

• 项目主页:

https://zx-yin.github.io/3dfixer

• 文章链接:

https://arxiv.org/pdf/2604.04406

GitHub代码

https://github.com/HorizonRobotics/3D-Fixer

现有挑战

基于单张图像生成3D场景,是构建物理世界数字孪生环境的关键技术问题。现有方法在泛化能力与生成效率之间存在显著权衡:端到端方法受限于训练数据多样性不足,导致难以泛化;而分而治之 (divide-and-conquer) 方法虽通过“单体生成+位姿对齐”提升了泛化能力,但计算开销大,且极易引入对齐失败与误差累积问题。

与此同时,场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集(如 3D-FRONT),规模有限且多样性不足。大规模真实数据(如 ScanNet)虽具丰富多样性,却缺乏可靠的物体级3D几何标注;自动构建数据(如 MetaScenes)在一定程度上弥补了标注缺失,但仍存在几何错位与形状不一致等问题,难以作为高精度训练数据。因此,构建兼具大规模、多样性与高精度标注的数据体系,是突破该方向性能上限的关键路径。

方法核心:原位补全新范式

3D-Fixer摒弃传统显式位姿对齐流程 ,利用3D基础模型从RGB图像中估计观测几何并构建空间锚点,直接在原始三维空间中完成3D生成与几何补全。该方法在保持全局布局一致性的同时,实现空间定位精度与物体完整性的协同优化,有效避免了迭代对齐带来的误差累积。

4f564cf8-4f7d-11f1-90a1-92fbcf53809c.png

基于这一思考,本文采用由粗到细 (Coarse-to-Fine) 的分阶段设计,将几何范围估计与细节生成有效解耦。具体而言,3D-Fixer以几何估计得到的点云为条件,结合实例分割模型,将场景中的不同实例划分至独立的mask中;随后,在各实例点云基础上,首先通过Coarse Structure Completer预测物体完整几何的粗略范围,再在该约束空间内利用Fine Shape Refiner进行细粒度几何重建,最终通过Occlusion-Aware 3D Texturer为生成结果补充纹理并处理遮挡区域。

4fb33d00-4f7d-11f1-90a1-92fbcf53809c.png

在模型结构上,本文采用双分支设计:一条分支保持预训练物体生成先验不变,以最大程度保留其生成能力;另一条分支显式建模场景上下文信息,用于对生成过程进行条件调控,从而实现面向复杂场景的原位补全。

数据引擎:大规模场景数据集

ARSG-110K

场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集(如 3D-FRONT)规模有限且多样性不足;大规模真实数据(如 ScanNet)缺乏可靠的物体级3D几何标注;自动构建数据(如 MetaScenes)则存在几何错位等问题。

针对此数据缺口,我们构建并开源了ARSG-110K数据集:

数据规模:收集180K+高质量物体资产、1K+HDR贴图及5K+材质,自动构建110K+个多样化场景(单场景5-20个实例),产出超300万张图像。

标注精度:基于Blender Cycles渲染引擎实现物理一致的光照与材质建模,提供精确的实例级掩码、物体几何真值及完整布局信息。

500c148e-4f7d-11f1-90a1-92fbcf53809c.png

实验结果

3D-Fixer仅在自主构建的ARSG-110K数据集上进行训练,在多项评测指标上大幅超越现有方法:

高效推理效率:在MIDI测试集上,单场景生成耗时仅为30s,对比Gen3DSR(9分钟)和REPARO(4分钟),效率有数量级提升。

最佳重建精度:在MIDI测试集中,交并比 (IoU) 达到0.492,倒角距离 (CD) 等指标均处于最优水平。

良好的泛化能力:在ScanNet子集、自建测试集以及室外等复杂遮挡场景中,3D-Fixer均展现了优异的几何完整性、布局恢复能力与结构一致性。

5066398c-4f7d-11f1-90a1-92fbcf53809c.png

可视化结果进一步表明,该方法在结构一致性与生成质量上均优于现有方案。

50bff27e-4f7d-11f1-90a1-92fbcf53809c.gif

5123fc88-4f7d-11f1-90a1-92fbcf53809c.gif

51841a3c-4f7d-11f1-90a1-92fbcf53809c.gif

总结与展望

3D-Fixer提出的“原位补全”范式系统性重构了单图3D场景生成流程,有效实现了泛化能力与生成效率的平衡。该框架结合前馈式架构与ARSG-110K大规模数据集,为构建高保真、强泛化的三维数字孪生环境提供了可靠方案。项目代码与数据现已全面开源,旨在为3D视觉生成、机器人感知及具身智能仿真等领域提供底层技术支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 三维
    +关注

    关注

    1

    文章

    531

    浏览量

    30011
  • 模型
    +关注

    关注

    1

    文章

    3861

    浏览量

    52322
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26282

原文标题:开发者说|3D-Fixer:单图3D场景生成的原位补全新范式

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于AD09的3d设计流程

    基于_ad_09_的3d设计流程 模型的建立,必须通过3D绘制软件绘制器件的3D模型,模型的格式必须为AP214的step格式。尺寸必须和实物一致,尺寸可以参考器件的datasheet
    发表于 05-15 08:56

    3D测量使用的labview框架

    这是小弟一个3D测量项目上的软件框架
    发表于 06-04 14:16

    传统CAD制图out了,试试浩辰3D制图软件的原位创建!

    设计,一般会因尺寸测量不准,从而导致钣金装配干涉、形状不符等问题,但是通过原位创建则可以完全规避这些问题。通过捕捉框架的位置信息,且无需实际测量任何尺寸数据,就能直接原位创建与框架的大
    发表于 08-13 16:38

    PYNQ框架下如何快速完成3D数据重建

    演进行计时。对于作者定制的3D到2D投影算法,又设计了一个覆盖层来加速乘法累加(MAC)操作,然后通过Jupyter笔记本在PYNQ板上进行测试。未来将为视频输入设计自定义覆盖,以加速视差和三维点云
    发表于 01-07 17:25

    3D图像生成算法的原理是什么?

    什么是3D图形芯片?3D图像生成算法的原理是什么?
    发表于 06-04 06:29

    面向3D机器视觉应用并采用DLP技术的精确点云生成_原理

    面向 3D 机器视觉应用并采用 DLP 技术的精确点云生成-原理
    发表于 11-22 14:35 29次下载

    人工智能系统VON,生成最逼真3D图像

    研究团队写道:“我们的关键思想是将图像生成过程分解为三个要素:形状、视角和纹理,这种分离的3D表示方式使我们能够在对抗学习框架下从3D和2D
    的头像 发表于 12-07 09:28 8678次阅读

    3D的感知技术及实践

    3D滤波、噪声过滤和表面平滑 3D信号处理深度平滑滤波 3D信号处理深度的双边滤波 3D信号
    的头像 发表于 10-23 09:40 4398次阅读
    <b class='flag-5'>3D</b>的感知技术及实践

    谷歌发明的由2D图像生成3D图像技术解析

    谷歌发明的由2D图像生成3D图像的技术,利用3D估计神经网络图像信息的补全以及预测,融合了拍摄角度、光照等信息,让
    的头像 发表于 12-24 12:55 5757次阅读
    谷歌发明的由2<b class='flag-5'>D</b>图像<b class='flag-5'>生成</b><b class='flag-5'>3D</b>图像技术解析

    基于视觉注意力的全卷积网络3D内容生成方法

     由于在某些特殊场景中获取深度线索的难度较高,使得已有3D内容生成方法的应用受到限制。为此,以显著代替深度进行2
    发表于 05-13 16:13 12次下载

    3D模型场景展示哪个平台做的好?

    体验。 3D模型场景建设能够对所需的模型进行材质替换、灯光、虚拟场景、动画生成3D互动展示等一系列效果设置,让模型展示“动”起来,
    的头像 发表于 12-30 15:39 1873次阅读
    <b class='flag-5'>3D</b>模型<b class='flag-5'>场景</b>展示哪个平台做的好?

    颗CMOS摄像头重构三维场景,维悟光子发布目红外3D成像模组

    硬件系统的轻量化和降本是3D视觉市场演进的必然趋势。维悟光子通过底层原理的创新,仅利用目CMOS相机(最简单的成像系统)就可以获取完整的3D信息。本次发布的目红外
    的头像 发表于 10-13 15:45 1920次阅读
    以<b class='flag-5'>单</b>颗CMOS摄像头<b class='flag-5'>重构</b>三维<b class='flag-5'>场景</b>,维悟光子发布<b class='flag-5'>单</b>目红外<b class='flag-5'>3D</b>成像模组

    3D人体生成模型HumanGaussian实现原理

    和驱动等。为了自动化 3D 内容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分数蒸馏采样 (Score Distillation Sampling),通过优化 3D
    的头像 发表于 12-20 16:37 3424次阅读
    <b class='flag-5'>3D</b>人体<b class='flag-5'>生成</b>模型HumanGaussian实现原理

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的阶段的全类别扩散模型,能
    的头像 发表于 01-30 16:20 2574次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!让文本、图像都动起来的新方法!

    欢创播报 腾讯元宝首发3D生成应用

    App。 腾讯元宝APP发布时,就围绕工作效率场景、日常生活等场景提供了丰富的应用,并有创建个人智能体等个性化体验,“3D角色梦工厂”则将大模型生成技术和
    的头像 发表于 07-18 11:39 2086次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b><b class='flag-5'>生成</b>应用