3D-Fixer框架基于原位补全重构单图3D场景生成流程-电子发烧友网

3D-Fixer

打破重建与生成边界

基于原位补全开启 3D 场景生成新范式

基于单张图像生成完整三维场景，是构建物理世界数字孪生的关键问题。现有方法在复杂场景中普遍面临两方面瓶颈：一是受遮挡等因素影响，几何重建往往不完整;二是依赖显式姿态对齐，易引发误差累积与结构错位。此外，高质量且多样化的场景级数据稀缺，也进一步限制了模型的泛化能力。近期三维基础模型(如 VGPT、Pi3)已具备一定的可泛化前馈几何重建能力，但由于缺乏物体级理解与生成能力，难以直接用于构建可交互的三维场景。

为此，我们提出 3D-Fixer 框架，其核心在于引入“原位补全(In-place Completion)”范式。该范式摒弃传统显式位姿对齐流程，以 3D 基础模型预测的残缺几何为空间锚点，在 3D 空间中直接完成三维生成与几何补全。在维持全局布局一致性的同时，协同优化空间定位精度与单体完整性，消除了迭代对齐导致的误差累积。

架构设计方面，3D-Fixer 采用由粗到精(Coarse-to-Fine)分阶段生成策略，并引入遮挡鲁棒特征对齐机制。通过融合预训练生成先验与几何观测，模型在遮挡条件下亦能稳定恢复场景结构，有效缓解边界模糊。数据层面，针对场景级训练数据缺口，本文构建并开源了大规模组合式数据集 ARSG-110K，包含 11 万个程序化复杂场景与 300 万张具备高保真三维标注的图像。

实验表明，3D-Fixer 仅依托自主构建的 ARSG-110K 数据集完成训练，即在多项核心评测指标上显著优于现有基准方法，在维持前馈推理效率的同时，有效提升了几何重建精度与模型泛化性。目前，该论文已被 CVPR 2026 录用，配套代码、数据集及项目主页均已全面公开。本工作为低成本构建可交互数字孪生环境提供了新的技术路径，期望推动具身智能系统的大规模泛化与实际落地。

• 项目主页：

https://zx-yin.github.io/3dfixer

• 文章链接：

https://arxiv.org/pdf/2604.04406

•GitHub代码：

https://github.com/HorizonRobotics/3D-Fixer

现有挑战

基于单张图像生成3D场景，是构建物理世界数字孪生环境的关键技术问题。现有方法在泛化能力与生成效率之间存在显著权衡：端到端方法受限于训练数据多样性不足，导致难以泛化；而分而治之 (divide-and-conquer) 方法虽通过“单体生成+位姿对齐”提升了泛化能力，但计算开销大，且极易引入对齐失败与误差累积问题。

与此同时，场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集（如 3D-FRONT），规模有限且多样性不足。大规模真实数据（如 ScanNet）虽具丰富多样性，却缺乏可靠的物体级3D几何标注；自动构建数据（如 MetaScenes）在一定程度上弥补了标注缺失，但仍存在几何错位与形状不一致等问题，难以作为高精度训练数据。因此，构建兼具大规模、多样性与高精度标注的数据体系，是突破该方向性能上限的关键路径。

方法核心：原位补全新范式

3D-Fixer摒弃传统显式位姿对齐流程，利用3D基础模型从RGB图像中估计观测几何并构建空间锚点，直接在原始三维空间中完成3D生成与几何补全。该方法在保持全局布局一致性的同时，实现空间定位精度与物体完整性的协同优化，有效避免了迭代对齐带来的误差累积。

基于这一思考，本文采用由粗到细 (Coarse-to-Fine) 的分阶段设计，将几何范围估计与细节生成有效解耦。具体而言，3D-Fixer以几何估计得到的点云为条件，结合实例分割模型，将场景中的不同实例划分至独立的mask中；随后，在各实例点云基础上，首先通过Coarse Structure Completer预测物体完整几何的粗略范围，再在该约束空间内利用Fine Shape Refiner进行细粒度几何重建，最终通过Occlusion-Aware 3D Texturer为生成结果补充纹理并处理遮挡区域。

在模型结构上，本文采用双分支设计：一条分支保持预训练物体生成先验不变，以最大程度保留其生成能力；另一条分支显式建模场景上下文信息，用于对生成过程进行条件调控，从而实现面向复杂场景的原位补全。

数据引擎：大规模场景数据集

ARSG-110K

场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集（如 3D-FRONT）规模有限且多样性不足；大规模真实数据（如 ScanNet）缺乏可靠的物体级3D几何标注；自动构建数据（如 MetaScenes）则存在几何错位等问题。

针对此数据缺口，我们构建并开源了ARSG-110K数据集：

数据规模：收集180K+高质量物体资产、1K+HDR贴图及5K+材质，自动构建110K+个多样化场景（单场景5-20个实例），产出超300万张图像。

标注精度：基于Blender Cycles渲染引擎实现物理一致的光照与材质建模，提供精确的实例级掩码、物体几何真值及完整布局信息。

实验结果

3D-Fixer仅在自主构建的ARSG-110K数据集上进行训练，在多项评测指标上大幅超越现有方法：

高效推理效率：在MIDI测试集上，单场景生成耗时仅为30s，对比Gen3DSR（9分钟）和REPARO（4分钟），效率有数量级提升。

最佳重建精度：在MIDI测试集中，交并比 (IoU) 达到0.492，倒角距离 (CD) 等指标均处于最优水平。

良好的泛化能力：在ScanNet子集、自建测试集以及室外等复杂遮挡场景中，3D-Fixer均展现了优异的几何完整性、布局恢复能力与结构一致性。

可视化结果进一步表明，该方法在结构一致性与生成质量上均优于现有方案。

总结与展望

3D-Fixer提出的“原位补全”范式系统性重构了单图3D场景生成流程，有效实现了泛化能力与生成效率的平衡。该框架结合前馈式架构与ARSG-110K大规模数据集，为构建高保真、强泛化的三维数字孪生环境提供了可靠方案。项目代码与数据现已全面开源，旨在为3D视觉生成、机器人感知及具身智能仿真等领域提供底层技术支撑。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉