0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Block nerf:可缩放的大型场景神经视图合成

3D视觉工坊 来源:泡泡机器人SLAM 作者:paopaoslam 2022-10-19 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要

我们提出了 Block-NeRF,一种神经辐射场的变体,可以表示大规模的场景。具体来说,我们发现,当使用 NeRF 渲染跨越多个街区的城市规模场景时,将场景分解为单独训练的子 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的场景,并允许对环境进行逐块更新。我们采用了几项架构更改,以使 NeRF 对在不同环境条件下数月捕获的数据具有鲁棒性。我们为每个单独的 NeRF 添加了外观嵌入、可学习的位姿细化和可控曝光,并引入了校准相邻 NeRF 之间外观的程序,以便它们可以无缝组合。我们从 280 万张图像中构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染旧金山的整个社区。

video: (click the picture to view)

cf1514b0-4f63-11ed-a3b6-dac502259ad0.png

主要贡献

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

为了在大场景中应用神经辐射场(NeRF)模型,文章提出将大型场景分解为相互重叠的子场景 (block),每一个子场景分别训练,在推理时动态结合相邻 Block-NeRF 的渲染视图。

文章在 mip-NeRF 的基础上增加了外观嵌入、曝光嵌入和位姿细化,以解决训练数据横跨数月而导致的环境变化和位姿误差。

为了保证相邻 Block-NeRF 的无缝合成,文章提出了在推理时迭代优化这些 Block-NeRF 的输入外观嵌入以校准它们的渲染结果。

方法概述

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png 神经辐射场 (NeRF)是使用神经网络拟合辐射场,用于视图渲染的方法。然而,传统的 NeRF 很难被直接扩展到大场景应用。这是因为拟合大场景所需的神经网络也会很大,这会导致训练和推理渲染变得很困难。本文提出将大的场景划分为数个相互重合的小场景 (block)。如下图所示的丁字路口被划分为三个小场景(黄圈),针对每一个小场景单独训练一个 Block-NeRF。推理时合并覆盖目标视图范围的 Block-NeRF 渲染生成最终的视图。

cf5e8866-4f63-11ed-a3b6-dac502259ad0.png

mip-NeRF 拓展

文章基于 mip-NeRF,但是由于训练视图在长达数月的时间内采集,不可避免地出现场景光照不同、相机曝光不同、视图位姿存在误差等问题。为了解决这些问题,文章在 mip-NeRF 的基础上增加了外观嵌入和曝光作为神经网络的输入(如下图所示,其中 fσ 和 fc 分别为预测密度 σ 和颜色 RGB 的神经网络,x 为场景中的三维坐标点,d 表示视角)。

cfbffd94-4f63-11ed-a3b6-dac502259ad0.png

训练时使用生成式潜码优化的方法学习外观嵌入,消除天气光照等原因的影响。曝光则直接可以读取采集记录,只需对其进行正弦位置编码即可。

与此同时,训练视图的采集跨越了多个驾驶段,这些驾驶轨迹之间不可避免地存在位姿误差。Block-NeRF 训练时还同时优化每一个驾驶段的位姿偏移以降低位姿误差带来的影响。

街道视图中存在汽车、行人等瞬时物体,然而场景渲染通常只关注建筑、街道等静态结构。文章于是使用语义分割网络对训练视图中的动态物体进行掩蔽,这样神经辐射场就不会学习这些动态物体,而是只关注静态场景结构。

有时目标视图的相邻 Block-NeRF 可能距离上很近,但并不在目标视图的视野之内,文章在传统 NeRF 的两个神经网络 fσ 和 fc 之外,还增加了一个预测能见度的网络 fv。给定三维坐标 x 和视角 d , fv 预测该点在给定视角下的能见度。合成多个 Block-NeRF 的渲染时,能见度低于阈值的渲染不会被用于最终的合成。训练时能见度可以由相应点的透光率作为监督目标。

cfcb833a-4f63-11ed-a3b6-dac502259ad0.png

Block-NeRF 融合

为提高渲染效率,渲染目标视图时文章仅融合:

中心点在阈值半径内

且平均能见值高于阈值的 Block-NeRFs

满足这两个条件的 Block-NeRFs 以反距离加权的方式融合渲染视图。这里的距离选择相机到 Block-NeRFs 的二维空间距离。这样的融合方法既保证了渲染真实度又能够满足时空一致性。

为了保证不同视角下渲染的天气、光线等外观的一致性,文章还在推理时引入了外观嵌入迭代优化。给定一个 Block-NeRF 的外观嵌入,文章在锁定神经网络权重不变的基础上,优化相邻 Block-NeRFs 的外观嵌入,最大化其渲染视图的一致性。

实验结果

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

文章采集并开源了两个数据集:San Francisco Alamo Square Dataset 和 San Francisco Mission Bay Dataset,分布包含280万和1.2万图片。Alamo Square Dataset覆盖大约 0.5km2 ,采集自3个月周期内,包括不同光线条件和天气的数据。Mission Bay Dataset 涵盖的地理范围远远小于 Alamo Square Dataset,主要被用来与 NeRF做比较。

Table 2 显示 Block-NeRF 相较于NeRF 渲染效果更好。并且 block 数量越多越好。即便是保持神经网络总参数量不变,Block-NeRF 仍然优于 NeRF 并且推理速度在不考虑并行计算的前提下也大大提高。

cff1ac22-4f63-11ed-a3b6-dac502259ad0.png

Table 1 和 Figure 7 分别定量和定性地显示外观嵌入、曝光输入以及位姿优化都对提高渲染效果有帮助。

cffe6ffc-4f63-11ed-a3b6-dac502259ad0.png

d0335f32-4f63-11ed-a3b6-dac502259ad0.png

Figure 6 显示推理时外观嵌入优化可以将渲染从白天场景转换成黑夜场景,从而更好地与基准 Block-NeRF 匹配,增强渲染地时空一致性。

d0bb5392-4f63-11ed-a3b6-dac502259ad0.png

总结

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

本文提出了Block-NeRF,采用 divide-and-conquer 的方法使用多个 Block-NeRFs 学习大型场景的不同分块,最终将这些Block-NeRFs 的渲染合成目标视图。这样的方法使得利用 NeRF 模型渲染城市规模的场景成为了可能。

此外 Block-NeRF 还在 mip-NeRF 的基础上,引入了外观嵌入优化、曝光输入和位姿细化等扩展,以解决训练数据横跨数月而导致的环境变化和位姿误差。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4848

    浏览量

    108531
  • Block
    +关注

    关注

    0

    文章

    26

    浏览量

    15189
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    浅谈CMOS技术缩放的三个时代

    本文介绍了晶体管密度缩放的三个不同的缩放时代:几何缩放、等效缩放和超缩放(或功能多样化)。
    的头像 发表于 05-27 16:47 234次阅读
    浅谈CMOS技术<b class='flag-5'>缩放</b>的三个时代

    机器学习特征工程:缩放、编码、聚合、嵌入与自动化

    取值范围仅0到1的列。常用的三种缩放器各有适用场景:StandardScaler适合近似正态分布的数据,也是最常见的选择;MinMaxScaler将值压缩到0和1
    的头像 发表于 04-08 14:41 824次阅读
    机器学习特征工程:<b class='flag-5'>缩放</b>、编码、聚合、嵌入与自动化

    3DGS 与 OpenMATERIAL:场景表示与材质标准的分层协同

    引言3DGS(3DGaussianSplatting)的出现重塑了场景重建工作流,通过采集的相机与LiDAR数据,可直接重建出视觉质量接近手工建模的高保真场景,无需美术师逐资产打磨材质贴图。康谋世界提取工具链在此基础上更进一步:通过Ne
    的头像 发表于 04-03 17:32 282次阅读
    3DGS 与 OpenMATERIAL:<b class='flag-5'>场景</b>表示与材质标准的分层协同

    自动驾驶仿真测试场景生成方法:从技术突破到工程落地的全维度解析

    建模与有限真实数据采集,不仅耗时耗力,更难以覆盖极端工况与长尾场景。随着 3D 高斯泼溅(3DGS)、神经辐射场(NeRF)等技术的崛起,自动驾驶仿真场景生成正迎来从 "手动构建" 到
    的头像 发表于 02-02 17:52 679次阅读
    自动驾驶仿真测试<b class='flag-5'>场景</b>生成方法:从技术突破到工程落地的全维度解析

    NMSIS神经网络库使用介绍

    NMSIS NN 软件库是一组高效的神经网络内核,旨在最大限度地提高 Nuclei N 处理器内核上的神经网络的性能并最​​大限度地减少其内存占用。 该库分为多个功能,每个功能涵盖特定类别
    发表于 10-29 06:08

    脉冲神经元模型的硬件实现

    如图所示展示了LIF神经元的膜电势Vmem随时间戳timestamp动态变化的过程,当接收到输入脉冲后,LIF神经元的膜电势值Vmem便会升高,直至达到阈值电压Vthersh,此时神经元产生输出脉冲
    发表于 10-24 08:27

    华秋DFM软件丨操作教程——菜单栏-视图功能篇

    列表:一览所有器件信息 可以 调整视图比例 ,选择查找顶层或底层的元件。 点击列表中的元件会 定位到元件具体位置 。 五、3D视图:从立体角度审视PCB 可以拖动鼠标360°自由 旋转、缩放、任意
    发表于 09-26 11:51

    使用OpenUSD实现互操作3D工作流(下)

    通用场景描述简称 OpenUSD,是一个开放且扩展的生态系统,用于在 3D 世界内描述内容、合成数据、进行仿真和开展协作。
    的头像 发表于 09-23 15:39 1242次阅读

    使用OpenUSD实现互操作3D工作流(上)

    通用场景描述简称 OpenUSD,是一个开放且扩展的生态系统,用于在 3D 世界内描述内容、合成数据、进行仿真和开展协作。
    的头像 发表于 09-23 15:37 1204次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    : 脉冲驱动Transformer的独特特性: 三、超导与非超导低温类脑芯片 低温器件是指在低于绝对零度(-273.15℃)的温度范围内工作的器件。 大型神经形态网络功耗的主要来源是神经元和突触之间
    发表于 09-17 16:43

    TTS文字合成语音芯片的使用场景

    TTS文字合成语音播报芯片的使用场景非常广泛,可以适用于各行各业,主要应用于复杂的语音播报场景,下面小编带大家一起来了解一下。 传统的语音播报芯片,主要是先把语音存入FLASH当中,然后在固定的环境
    的头像 发表于 08-22 17:11 1244次阅读

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 5523次阅读
    生成式 AI 重塑自动驾驶仿真:4D <b class='flag-5'>场景</b>生成技术的突破与实践

    NVIDIA借助神经渲染技术为物理AI开发场景注入新活力

    DiffusionRenderer 引入了一种神经渲染技术,可用于创意领域的内容生成和编辑,也可用于智能汽车和机器人开发的合成数据生成。
    的头像 发表于 06-16 14:41 1112次阅读

    一种适用于动态环境的3DGS-SLAM系统

    当前基于神经辐射场(NeRF)或3D高斯泼溅(3DGS)的SLAM方法在重建静态3D场景方面表现出色,但在动态环境中的跟踪和重建方面却面临着挑战。
    的头像 发表于 06-13 10:10 1745次阅读
    一种适用于动态环境的3DGS-SLAM系统

    康谋方案 | 高精LiDAR+神经渲染3DGS的完美融合实践

    在自动驾驶仿真测试刚需下,数字孪生成提升保真度关键。本文介绍传统与前沿结合的构建流程,先通过数据采集、点云聚合等完成高精地图重建,再以NeRF+3DGS实现神经网络重建,降本增效,为仿真注入真实感,重塑测试范式。
    的头像 发表于 06-11 13:51 2018次阅读
    康谋方案 | 高精LiDAR+<b class='flag-5'>神经</b>渲染3DGS的完美融合实践