0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何以模型和场景为中心的方式控制数据生成

3D视觉工坊 来源:计算机视觉深度学习和自 作者:黄浴 2022-10-26 11:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

训练计算机视觉模型通常需要在各种场景配置和属性下收集和标注大量图像。这个过程非常耗时,确保捕获的数据分布很好地映射到应用程序场景的目标域也是一个挑战。

最近,合成数据已成为解决这两个问题的一种方法。然而,现有的方法要么需要人类专家手动调整每个场景属性,要么用几乎没有控制的自动方法;这需要渲染大量随机的数据变异,其过程很慢,并且对于目标域来说通常是次优的。

作者提出了第一个完全可微分的合成数据流水线,在闭环中用神经辐射场(NERF),其具备目标应用的损失函数。这个方法按需生成数据,无需人力,最大限度地提高目标任务的准确性。

该方法在合成和真实目标检测任务中具备有效性。一个新的“YCB-in-the-Wild”数据集和基准,为现实环境中具有不同姿态的目标检测提供了测试场景。

最近,图像生成技术神经辐射场(NeRF),作为用基于神经网络的渲染器,替代传统光栅化和光线跟踪图形学流水线的方法。这种方法可以生成高质量的场景新视图,无需进行明确的3D理解。NeRF的最新进展允许控制其他渲染参数,如照明、材质、反照率、外观等。因此,被广泛应用于各种图形和视觉任务。

NeRF及其变型具有一些诱人的特性:(i)可差分渲染,(ii)与GANs和VAEs不同的对场景属性的控制,以及(iii)与传统渲染器相比,数据驱动的模式,而传统渲染器需要精心制作3D模型和场景。这些属性适合于为给定目标任务按需生成最佳数据。

NeRF更适合学习生成合成数据集的优势在于两个方面。 首先,NeRF学习仅基于图像数据和摄像头姿态信息从新视图生成数据。

相反,传统的图形学流水线需要目标的3D模型作为输入。获得具有正确几何、材质和纹理属性的精确3D模型通常需要人类专家(即艺术家或建模师)。这反过来限制了传统图形学流水线在许多新目标或场景的大规模渲染中的可扩展性。

其次,NeRF是一种可微分的渲染器,因此允许通过渲染流水线进行反向传播,学习如何以模型和场景为中心的方式控制数据生成。 工作目标是自动合成最佳训练数据,最大限度地提高目标任务的准确性,取名为Neural-Sim

在这项工作中,将目标检测作为目标任务。此外,最近,NeRF及其变型(NeRFs)已用于合成复杂场景的高分辨率真实感图像。这里提出了一种优化NERF渲染参数的技术,生成用于训练目标检测模型的最佳图像集。

如图所示:(a) 按需合成数据生成:给定目标任务和测试数据集,Neural- Sim使用完全可微分的合成数据生成流水线按需生成数据,最大限度地提高目标任务的精度。(b) 训练/测试域间隙导致检测精度显著下降(黄色条至灰色条)。动态优化渲染参数(姿势/缩放/照明),生成填充该间隙的最佳数据(蓝色条)。

a0a81ae0-4852-11ed-a3b6-dac502259ad0.png


NeRF模型

NeRF表示为V =(φ,ρ),把观察方向(或摄像头姿态)作为输入,并渲染沿V观看的场景图像x=NeRF(V)。注意,这里技术通常广泛适用于不同的渲染器。这项工作中还优化了NeRF-in-the-wild(NeRF-w),允许外观和照明变化以及姿势变化。

合成训练数据生成

考虑渲染参数V的参数概率分布pψ,其中ψ表示分布的参数。应注意,ψ对应于所有渲染参数,包括姿势/缩放/照明,这里,为了简单起见,ψ表示姿势变量。为了生成合成训练数据,首先采样渲染参数V1、V2、…、VN∼ pψ。然后,用NeRF生成具有各自渲染参数Vi的合成训练图像xi=NeRF(Vi)。 使用现成的前景提取器获得标签y1,y2,…,yN。由此生成的训练数据集表示为Dtrain = {(x1,y1)、(x2,y2),…,(xN,yN)}。

优化合成数据生成

目标是优化渲染分布pψ,在Dtrain上训练目标检测模型使得在Dval上获得良好的性能。如此构建一个两层优化,即:

a0c77e6c-4852-11ed-a3b6-dac502259ad0.png

其中

a0dfe2ea-4852-11ed-a3b6-dac502259ad0.png

a0f6458a-4852-11ed-a3b6-dac502259ad0.png

这里求解方法采用如下的梯度计算:其分成两个项分别估计,∇NeRF对应于通过从NeRF生成数据集的反向传播,以及∇TV对应于通过训练和验证的近似反向传播

a1164a42-4852-11ed-a3b6-dac502259ad0.png

如图所示Neural-Sim的流水线:从经过训练的神经渲染器(NeRF)中找到生成视图的最佳参数,用作目标检测的训练数据。目标是找到能够生成合成训练数据Dtrain的最佳NeRF渲染参数ψ,在Dtrain上训练的模型(取RetinaNet为例)最大化验证集Dval表示的下游任务的精度。


a131ca7e-4852-11ed-a3b6-dac502259ad0.png

近似计算:

a157ff32-4852-11ed-a3b6-dac502259ad0.png

然后基于链式法则得到:

a17da4ee-4852-11ed-a3b6-dac502259ad0.png

为计算采用一些近似方法:

对于位姿参数离散区间上的分布pψ,提出了一种ψ的重新参数化,提供了dVi/dψ的有效近似(工具 1)。

用一种两次向前一次向后(twice-forward-once-backward)的方法(工具2),大大减少了(2)中梯度近似的内存和计算开销。如果没有这种新技术,实现中需要涉及大矩阵和计算图的高计算开销。

即使使用上述技术,在GPU内存方面,(3)中计算第一项和第二项的开销很大,取决于图像大小。用逐块梯度计算方法(工具 3)克服了这一问题。

关于工具1中重新参数化的实现,采用bin-samplinng,如图所示:首先将位姿空间离散为一组k个bins,然后对其进行采样以生成NeRF的视图参数。为了在采样过程中反向传播,用Gumble softmax的“重新参数化技巧”,从类别(即bin)分布中近似样本。在每个bin中,均匀采样。

a1979994-4852-11ed-a3b6-dac502259ad0.png

这里y的计算如下

a1bd50e4-4852-11ed-a3b6-dac502259ad0.png

这样∇NeRF的计算变成:

a1d378ec-4852-11ed-a3b6-dac502259ad0.png

整个梯度计算包括三项:

a1e8e8da-4852-11ed-a3b6-dac502259ad0.png  

而工具2提出的“两次向前一次向后“方法是这样的:在第一个前向路径中,不计算梯度,只渲染图像形成Dtrain,保存用于渲染的y,φj的随机样本。然后,转向梯度计算(3)。在第二次通路NeRF时,保持相同的样本,去计算梯度(1)和(2)。 所谓工具3的逐块梯度计算如下:

a20eb646-4852-11ed-a3b6-dac502259ad0.png

NeRF-in-the-wild(NeRF-w)扩展了普通NeRF模型,允许依赖于图像的外观和照明变化,从而可以显式模拟图像之间的光度差异。

NeRF-w沿观看方向V作为输入的是外观嵌入,表示为l,图像呈现为x=NeRF(V,l)。

对于NERF-w,位姿(V)的优化与上述相同。照明的有效优化,则利用NeRF-w的一个值得注意的特性:允许在颜色和照明之间进行平滑插值。这能够将照明优化为连续变量,其中照明(l)可以写成可用照明嵌入(li)的仿射函数,l = sum(ψi∗ li)其中sum(ψi)= 1。

为从等式(3)计算梯度,∂xi/∂l使用工具2和工具3,以与上述相同的方式计算l,并且dl/dψ项计算是直接的,并通过投影梯度下降(projected gradient descent)进行优化。

实现细节如下:用传统渲染Blender-Proc,100幅具有不同摄像头姿态和缩放因子的图像,为每个YCB目标训练一个NeRF-w模型。用RetinaNet作为下游目标检测器。

为了加速优化,在训练期间固定主干。在双层优化步骤中,用Gumble softmax 温度τ = 0.1。在每次优化迭代中,为每个目标类渲染50幅图像,并训练两个epoch的 RetinaNet。

基线方法包括:提出的方法与学习模拟器参数的两种流行方法进行比较。第一个基线是“Learning to simulate (LTS)“,它提出了一种基于REINFORCE的方法来优化模拟器参数。

还要注意,meta-sim是一种基于REINFORCE的方法。接下来,第二个考虑Auto-Sim,它提出了一种学习模拟器参数的有效优化方法。

NS是指提出的方法没有做两层优化的情况,NSO是指提出的方法采用两层优化的情况。

实验结果如下:

a22f3ba0-4852-11ed-a3b6-dac502259ad0.pnga254877a-4852-11ed-a3b6-dac502259ad0.pnga27ddcc4-4852-11ed-a3b6-dac502259ad0.pnga2aa3cf6-4852-11ed-a3b6-dac502259ad0.png








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136060
  • 摄像头
    +关注

    关注

    61

    文章

    5115

    浏览量

    103488
  • 3D模型
    +关注

    关注

    1

    文章

    80

    浏览量

    16963
  • 提取器
    +关注

    关注

    0

    文章

    14

    浏览量

    8262

原文标题:Neural-Sim: 采用NeRF学习如何生成训练数据

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    因果一致、跨本体泛化、超长时交互、云侧实时生成、轻量化高效能、端侧本体控制核心优势,性能全面领跑国内外主流具身世界模型
    的头像 发表于 03-14 16:54 2000次阅读
    大晓机器人开源实时<b class='flag-5'>生成</b>世界<b class='flag-5'>模型</b>Kairos 3.0-4B

    模型 ai coding 比较

    助手 代码解读 复制代码 综合分 = (代码生成Pass@1 × 40%) + (Debug通过率 × 35%) + (重构平均分 × 25%) 主流大模型多维度评审对比表 数据日期
    发表于 02-19 13:43

    自动驾驶场景生成方法及优选方案:康谋aiSim 3DGS方案重塑行业标准

    在自动驾驶技术飞速发展的当下,仿真测试的重要性愈发凸显,而 自动驾驶场景生成 作为仿真测试的核心环节,其技术水平直接决定了测试的效率与可靠性。面对传统场景生成方式的诸多痛点,基于
    的头像 发表于 02-02 17:39 473次阅读

    模型支撑后勤保障方案生成系统:功能特点与平台架构解析

        大模型支撑后勤保障方案生成系统:功能特点与平台架构解析    大模型支撑后勤保障方案生成系统凭借智能预测、动态调度、路径优化、库存管理及可视化展示等核心能力,
    的头像 发表于 12-17 15:49 410次阅读

    DLInfer联手沐曦股份实现数据生成场景的实际落地

    近期,上海 AI 实验室 DeepLink 团队推出的 DLInfer 通过支持 LMDeploy 主流模型推理,助力沐曦股份曦云 C500 落地 MinerU 多模态数据生成场景,G
    的头像 发表于 12-09 14:55 861次阅读
    DLInfer联手沐曦股份实现<b class='flag-5'>数据</b><b class='flag-5'>生成</b><b class='flag-5'>场景</b>的实际落地

    行业特定的生成式 AI 能力如何形成:面向中国企业的场景化解决方案模型

    需要的不是一个“能对话”的模型,而是一套“能在行业场景中跑得通、落得下”的生成式 AI 方案。 因此,“哪些生成式 AI 平台中国公司提供
    的头像 发表于 12-02 09:33 558次阅读

    如何选择适合的智驾仿真工具进行场景生成和测试?

    在自动驾驶技术日益发展的背景下,选择合适的智驾仿真工具进行场景生成和测试显得尤为重要。该工具不仅需要支持高精度的场景重建,还需满足多种环境条件和传感器模型的兼容性。本文将深入探讨如何评
    的头像 发表于 11-25 10:32 479次阅读
    如何选择适合的智驾仿真工具进行<b class='flag-5'>场景</b><b class='flag-5'>生成</b>和测试?

    别再乱选!高清混合矩阵 5 种控制方式优缺点 + 场景适配指南,运维效率翻番

    运行直接决定了音视频系统的使用体验。而控制方式作为人机交互的核心环节,不仅影响操作效率,更需与实际场景深度适配。本文将系统梳理高清混合矩阵切换器的五种常见控制
    的头像 发表于 10-28 10:20 687次阅读

    如何让大模型生成你想要的测试用例?

    应用大模型生成测试用例,常见的知识库,测试大模型,微调,RAG等技术门槛都不低,甚至很难,因此对于应用者而言,最快的方式就是应用好提示词,调教属于个人风格的测试用例智能
    的头像 发表于 09-26 10:01 1125次阅读
    如何让大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的测试用例?

    NVIDIA助力汤元科技突破智能驾驶数据获取与生成瓶颈

    苏州汤元科技有限公司(以下简称“汤元科技”)是一家专注于三维重建与世界模型的科技公司,自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与 NVIDIA Cos
    的头像 发表于 09-06 15:16 1612次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    1. 项目概述 本项目旨在开发并部署一个高精度的深度学习模型,用于自动鉴别一张图片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)还是真实的画家
    发表于 08-21 13:59

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文
    的头像 发表于 08-06 11:20 5377次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动驾驶仿真:4D <b class='flag-5'>场景</b><b class='flag-5'>生成</b>技术的突破与实践

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    从FA模型切换到Stage模型时:module的切换说明

    标签标签说明对应的Stage模型标签差异对比name标识数据项的键名称。字符串最大长度255字节。name无。 value标识数据项的值。字符串最大长度
    发表于 06-05 08:16

    KaihongOS操作系统FA模型与Stage模型介绍

    的运行环境。FA模型的开发方式通过导出匿名对象、固定入口文件的方式指定应用组件。开发者无法进行派生,不利于扩展能力。 Stage模型 S
    发表于 04-24 07:27