0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Block nerf:可缩放的大型场景神经视图合成

3D视觉工坊 来源:泡泡机器人SLAM 作者:paopaoslam 2022-10-19 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要

我们提出了 Block-NeRF,一种神经辐射场的变体,可以表示大规模的场景。具体来说,我们发现,当使用 NeRF 渲染跨越多个街区的城市规模场景时,将场景分解为单独训练的子 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的场景,并允许对环境进行逐块更新。我们采用了几项架构更改,以使 NeRF 对在不同环境条件下数月捕获的数据具有鲁棒性。我们为每个单独的 NeRF 添加了外观嵌入、可学习的位姿细化和可控曝光,并引入了校准相邻 NeRF 之间外观的程序,以便它们可以无缝组合。我们从 280 万张图像中构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染旧金山的整个社区。

video: (click the picture to view)

cf1514b0-4f63-11ed-a3b6-dac502259ad0.png

主要贡献

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

为了在大场景中应用神经辐射场(NeRF)模型,文章提出将大型场景分解为相互重叠的子场景 (block),每一个子场景分别训练,在推理时动态结合相邻 Block-NeRF 的渲染视图。

文章在 mip-NeRF 的基础上增加了外观嵌入、曝光嵌入和位姿细化,以解决训练数据横跨数月而导致的环境变化和位姿误差。

为了保证相邻 Block-NeRF 的无缝合成,文章提出了在推理时迭代优化这些 Block-NeRF 的输入外观嵌入以校准它们的渲染结果。

方法概述

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png 神经辐射场 (NeRF)是使用神经网络拟合辐射场,用于视图渲染的方法。然而,传统的 NeRF 很难被直接扩展到大场景应用。这是因为拟合大场景所需的神经网络也会很大,这会导致训练和推理渲染变得很困难。本文提出将大的场景划分为数个相互重合的小场景 (block)。如下图所示的丁字路口被划分为三个小场景(黄圈),针对每一个小场景单独训练一个 Block-NeRF。推理时合并覆盖目标视图范围的 Block-NeRF 渲染生成最终的视图。

cf5e8866-4f63-11ed-a3b6-dac502259ad0.png

mip-NeRF 拓展

文章基于 mip-NeRF,但是由于训练视图在长达数月的时间内采集,不可避免地出现场景光照不同、相机曝光不同、视图位姿存在误差等问题。为了解决这些问题,文章在 mip-NeRF 的基础上增加了外观嵌入和曝光作为神经网络的输入(如下图所示,其中 fσ 和 fc 分别为预测密度 σ 和颜色 RGB 的神经网络,x 为场景中的三维坐标点,d 表示视角)。

cfbffd94-4f63-11ed-a3b6-dac502259ad0.png

训练时使用生成式潜码优化的方法学习外观嵌入,消除天气光照等原因的影响。曝光则直接可以读取采集记录,只需对其进行正弦位置编码即可。

与此同时,训练视图的采集跨越了多个驾驶段,这些驾驶轨迹之间不可避免地存在位姿误差。Block-NeRF 训练时还同时优化每一个驾驶段的位姿偏移以降低位姿误差带来的影响。

街道视图中存在汽车、行人等瞬时物体,然而场景渲染通常只关注建筑、街道等静态结构。文章于是使用语义分割网络对训练视图中的动态物体进行掩蔽,这样神经辐射场就不会学习这些动态物体,而是只关注静态场景结构。

有时目标视图的相邻 Block-NeRF 可能距离上很近,但并不在目标视图的视野之内,文章在传统 NeRF 的两个神经网络 fσ 和 fc 之外,还增加了一个预测能见度的网络 fv。给定三维坐标 x 和视角 d , fv 预测该点在给定视角下的能见度。合成多个 Block-NeRF 的渲染时,能见度低于阈值的渲染不会被用于最终的合成。训练时能见度可以由相应点的透光率作为监督目标。

cfcb833a-4f63-11ed-a3b6-dac502259ad0.png

Block-NeRF 融合

为提高渲染效率,渲染目标视图时文章仅融合:

中心点在阈值半径内

且平均能见值高于阈值的 Block-NeRFs

满足这两个条件的 Block-NeRFs 以反距离加权的方式融合渲染视图。这里的距离选择相机到 Block-NeRFs 的二维空间距离。这样的融合方法既保证了渲染真实度又能够满足时空一致性。

为了保证不同视角下渲染的天气、光线等外观的一致性,文章还在推理时引入了外观嵌入迭代优化。给定一个 Block-NeRF 的外观嵌入,文章在锁定神经网络权重不变的基础上,优化相邻 Block-NeRFs 的外观嵌入,最大化其渲染视图的一致性。

实验结果

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

文章采集并开源了两个数据集:San Francisco Alamo Square Dataset 和 San Francisco Mission Bay Dataset,分布包含280万和1.2万图片。Alamo Square Dataset覆盖大约 0.5km2 ,采集自3个月周期内,包括不同光线条件和天气的数据。Mission Bay Dataset 涵盖的地理范围远远小于 Alamo Square Dataset,主要被用来与 NeRF做比较。

Table 2 显示 Block-NeRF 相较于NeRF 渲染效果更好。并且 block 数量越多越好。即便是保持神经网络总参数量不变,Block-NeRF 仍然优于 NeRF 并且推理速度在不考虑并行计算的前提下也大大提高。

cff1ac22-4f63-11ed-a3b6-dac502259ad0.png

Table 1 和 Figure 7 分别定量和定性地显示外观嵌入、曝光输入以及位姿优化都对提高渲染效果有帮助。

cffe6ffc-4f63-11ed-a3b6-dac502259ad0.png

d0335f32-4f63-11ed-a3b6-dac502259ad0.png

Figure 6 显示推理时外观嵌入优化可以将渲染从白天场景转换成黑夜场景,从而更好地与基准 Block-NeRF 匹配,增强渲染地时空一致性。

d0bb5392-4f63-11ed-a3b6-dac502259ad0.png

总结

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

本文提出了Block-NeRF,采用 divide-and-conquer 的方法使用多个 Block-NeRFs 学习大型场景的不同分块,最终将这些Block-NeRFs 的渲染合成目标视图。这样的方法使得利用 NeRF 模型渲染城市规模的场景成为了可能。

此外 Block-NeRF 还在 mip-NeRF 的基础上,引入了外观嵌入优化、曝光输入和位姿细化等扩展,以解决训练数据横跨数月而导致的环境变化和位姿误差。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106799
  • Block
    +关注

    关注

    0

    文章

    26

    浏览量

    15114
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华秋DFM软件丨操作教程——菜单栏-视图功能篇

    列表:一览所有器件信息 可以 调整视图比例 ,选择查找顶层或底层的元件。 点击列表中的元件会 定位到元件具体位置 。 五、3D视图:从立体角度审视PCB 可以拖动鼠标360°自由 旋转、缩放、任意
    发表于 09-26 11:51

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    : 脉冲驱动Transformer的独特特性: 三、超导与非超导低温类脑芯片 低温器件是指在低于绝对零度(-273.15℃)的温度范围内工作的器件。 大型神经形态网络功耗的主要来源是神经元和突触之间
    发表于 09-17 16:43

    TTS文字合成语音芯片的使用场景

    TTS文字合成语音播报芯片的使用场景非常广泛,可以适用于各行各业,主要应用于复杂的语音播报场景,下面小编带大家一起来了解一下。 传统的语音播报芯片,主要是先把语音存入FLASH当中,然后在固定的环境
    的头像 发表于 08-22 17:11 827次阅读

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 4810次阅读
    生成式 AI 重塑自动驾驶仿真:4D <b class='flag-5'>场景</b>生成技术的突破与实践

    NVIDIA借助神经渲染技术为物理AI开发场景注入新活力

    DiffusionRenderer 引入了一种神经渲染技术,可用于创意领域的内容生成和编辑,也可用于智能汽车和机器人开发的合成数据生成。
    的头像 发表于 06-16 14:41 827次阅读

    康谋方案 | 高精LiDAR+神经渲染3DGS的完美融合实践

    在自动驾驶仿真测试刚需下,数字孪生成提升保真度关键。本文介绍传统与前沿结合的构建流程,先通过数据采集、点云聚合等完成高精地图重建,再以NeRF+3DGS实现神经网络重建,降本增效,为仿真注入真实感,重塑测试范式。
    的头像 发表于 06-11 13:51 1524次阅读
    康谋方案 | 高精LiDAR+<b class='flag-5'>神经</b>渲染3DGS的完美融合实践

    人工合成石墨片与天然石墨片的差别

    程度天然高达98%以上,无需额外高温处理,保留了自然形成的层状晶体结构,适合对成本敏感的传统工业场景。 人工合成石墨则是科技创新的产物。傲琪采用聚酰亚胺膜等含碳化合物,通过炭化、高温石墨化及精密压延工艺
    发表于 05-23 11:22

    技术分享 | 高逼真合成数据助力智驾“看得更准、学得更快”

    自动驾驶研发如何高效获取海量训练数据?高逼真合成数据技术正在提供新解法。通过仿真平台生成多场景、多传感器的精准标注数据。文章详解如何构建符合nuScenes标准的数据集,覆盖复杂交通场景
    的头像 发表于 04-29 10:47 3294次阅读
    技术分享 | 高逼真<b class='flag-5'>合成</b>数据助力智驾“看得更准、学得更快”

    技术分享 |多模态自动驾驶混合渲染HRMAD:将NeRF和3DGS进行感知验证和端到端AD测试

    多模态自动驾驶混合渲染HRMAD,融合NeRF与3DGS技术,实现超10万㎡场景重建,多传感器实时输出,仿真更接近真实数据!然而,如何用高保真仿真场景快速验证自动驾驶算法?HRMAD已集成至aiSim平台,端到端测试即刻开启!
    的头像 发表于 03-26 16:05 3923次阅读
    技术分享 |多模态自动驾驶混合渲染HRMAD:将<b class='flag-5'>NeRF</b>和3DGS进行感知验证和端到端AD测试

    DS855调相直接数字合成器适合哪些场景

    DS855调相直接数字合成器(DDS)是一款基于先进直接数字合成技术的高性能频率合成解决方案,它融合了尖端的数字信号处理技术,能够产生高精度且高度稳定的频率信号。DS855调相直接数字合成
    发表于 03-21 09:28

    技术分享 | AVM合成数据仿真验证方案

    AVM 合成数据仿真验证技术为自动驾驶环境感知发展带来助力,借助仿真软件配置传感器、搭建环境、处理图像,生成 AVM 合成数据,有效加速算法验证。然而,如何利用仿真软件优化传感器外参与多场景
    的头像 发表于 03-19 09:40 3493次阅读
    技术分享 | AVM<b class='flag-5'>合成</b>数据仿真验证方案

    VirtualLab Fusion应用:创建1D图

    的用户可以生成任意设置的一维绘图。 窗口尺寸 字体尺寸 坐标范围 基于选择的缩放比例I 基于选择的缩放比例II 轴刻度线数目 线的粗细和颜色 数据点符号 非插值视图 复制视图
    发表于 03-17 11:20

    敏捷合成器的技术原理和应用场景

    敏捷合成器,作为一种高性能的信号发生器,其技术原理和应用场景值得深入探讨。技术原理敏捷合成器的技术原理主要基于先进的频率合成技术和数字信号处理技术。它通常具有宽频率范围、快速建立和可编
    发表于 02-20 15:25

    DS878 数字合成器适合哪些应用场景

    DS878 数字合成器适合哪些应用场景?DS878 高速啁啾直接数字合成器是一款由EUVIS推出的高性能直接数字合成器,DS878高速啁啾直接数字
    发表于 02-10 09:20

    MVTRF:多视图特征预测SSD故障

    固态硬盘( Solid State Drive,SSD )在大型数据中心中发挥着重要作用。SSD故障会影响存储系统的稳定性,造成额外的维护开销。为了提前预测和处理SSD故障,本文提出了一种多视角
    的头像 发表于 12-30 11:04 980次阅读
    MVTRF:多<b class='flag-5'>视图</b>特征预测SSD故障