0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于大模型的仿真系统研究一——三维重建大模型

赛目科技 来源: 赛目科技 2024-07-30 14:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

基于大模型的仿真系统框架

传统的仿真测试验证普遍基于场景,而场景的构建主要由道路和场景编辑器来人工搭建静态场景和动态场景,这种方式费时费力,而且也大大限制了场景要素组合的丰富化。针对此痛点问题,赛目推出了基于大模型的仿真系统,利用机器学习深度学习人工智能技术,不仅推出自动标注大模型、多模态检测大模型和场景生成大模型等模块,并且引入三维重建大模型加强渲染画面真实性。

通过上述模块,赛目的路采场景转换系统实现了以传感器原始数据或者目标集数据为输入,通过感知融合、场景提取和生成等功能,输出仿真测试所需的静态路网和动态场景进行仿真,大大提高了仿真测试的效率。

图:基于大模型的仿真系统框架

三维重建大模型

本文首先介绍三维重建大模型。

三维重建是指根据单视图或者多视图重建三维信息、构建三维模型的过程。传统的计算机图形学的核心通过复杂的物理模型求解渲染方程。需要的不仅仅是场景中物体的几何和材质信息、相机的内外参信息,更需要复杂的光照模型来模拟自然光照的影响。

上述工作的重大突破来自Ben Mildenhall等人于2020发表的神经辐射场(NeRF),根据对同一物体不同观察视角的多张图像,通过隐式的编码表示场景实现三维重建的过程,利用体渲染生成新视角图像。

NeRF训练渲染流程可以总结如下:

1. 对于给定的相机光线,在光线上进行采样,对采样点的空间坐标及观察方向进行编码,用深度复杂网络存获得辐射场信息;

2. 辐射场输出空间点的颜色和密度;

3. 根据2的输出用体素渲染方程获得生成视角图片;

4. 在训练阶段与原视角图片计算损失更新网络。

图:NeRF训练管线[1]

下图表示了辐射场的网络结构,其中PE表示位置编码,x为三维坐标点,d为观察方向,MLP为多层感知机,ReLU和Sigmoid分别为不同激活函数。辐射场网络的输入是空间坐标及方差方向,输出为对应的颜色和密度值传递至体渲染模块。

图:NeRF网络结构

体渲染主要为解决云、烟、果冻等非刚性物体进行渲染建模,将其抽象成一团粒子群,表现了光线穿过时光子和粒子交互的过程,产生的辐亮度的变化。其物理过程包括吸收、外散射、内散射、放射。忽略背景光的影响,体渲染方程为:

上述方法主要针对室内小型场景进行三维重建,对于户外场景、特别是自驾场景还有许多优化的空间,相关内容将在下节讨论。

三维重建大模型-挑战和对应

对于自驾场景,上述Baseline方法面临的挑战包括:

1. 训练和渲染速度:Baseline方法需要花费数小时、甚至数天进行训练和生成,这对于仿真来说是难以接受的,同样不利于算法的迭代优化;

2. 生成画质清晰度:自驾场景包括了静态路网、动态环境参与者、背景建筑物、天空等等,需要同时将远景与近景清晰地渲染生成是一个极大的挑战;

3. 算法训练的过拟合现象:与Baseline对同一物体360°环视图像获取不同,路采车辆一般沿着固定采集路线前进,对于同一物体的信息收集不够充沛,影响最终的渲染质量。

4. 动态物体的添加和删除:利用三维重建大模型能够获得不同主车视角的成像结果,但是对于测试场景生成需要灵活地控制环境参与者,因此需要模型能够自由地对物体进行添加和删除。

基于上述问题,我们提出了下述的研究路线。

图:三维重建技术路线

对于无边界场景,由于可视范围变大的原因通过NDC坐标变化后的采样过程会将近景采样稀疏化,影响最终成像质量导致物体模糊,保持近距离坐标不变,远距离坐标作非线性转换是一种解决思路。坐标转换形式包括了[2-3]:

1.半径为r的球面内保持坐标不变,球面外坐标以单位向量以及逆半径重新定义,具体如下





然后利用线性插值法获得相应分辨率下的特征,输入至多层感知机中进行训练。特征栅格主要流程如下。

通过上述三维重建大模型方法,可以在自动驾驶仿真领域提升模型的训练和渲染速度、重建画质的清晰度、辐射场中物体深度与表面的准确度等等,同时能够动态添加环境车、行人等交通参与者进行场景泛化,实现更灵活的场景生成需求。

参考文献

[1]Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106.

[2]Zhang, Kai, et al. "Nerf++: Analyzing and improving neural radiance fields." arXiv preprint arXiv:2010.07492 (2020).

[3]Barron, Jonathan T., et al. "Mip-nerf 360: Unbounded anti-aliased neural radiance fields." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4]Müller, Thomas, et al. "Instant neural graphics primitives with a multiresolution hash encoding." ACM Transactions on Graphics (ToG) 41.4 (2022): 1-15.

赛目科技

专注智能网联汽车测试

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 仿真系统
    +关注

    关注

    1

    文章

    106

    浏览量

    21751
  • 大模型
    +关注

    关注

    2

    文章

    3862

    浏览量

    5295

原文标题:基于大模型的仿真系统研究一——三维重建大模型

文章出处:【微信号:gh_c85a8e3c0f2a,微信公众号:赛目科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    面向无位姿多视图输入的统一三维重建与语义理解框架Uni3R介绍

    在现实场景中,通常只能获取来自多个视角的RGB图像,而缺乏相机位姿、深度或点云等辅助信息。现有三维重建方法普遍存在两方面局限:是将几何重建与语义理解解耦建模,需分别训练与优化,导致系统
    的头像 发表于 05-15 14:34 88次阅读
    面向无位姿多视图输入的统一<b class='flag-5'>三维重建</b>与语义理解框架Uni3R介绍

    工业CT三维重建技术全解析:从断层扫描到高精度3D模型的内部透视

    ,清晰观察其内部三维结构,是贯穿研发与生产环节的共同诉求。工业CT检测技术凭借其非接触、非破坏性的断层成像能力,将实体样品转化为由数百万个体素构成的高保真数字模型。本文结合 广东省华南检测技术有限公司 实验室的岛津
    的头像 发表于 04-13 11:59 128次阅读
    工业CT<b class='flag-5'>三维重建</b>技术全解析:从断层扫描到高精度3D<b class='flag-5'>模型</b>的内部透视

    VirtualLab:光学系统三维可视化

    **摘要 ** 为了对光学系统的性质有个基本的了解,对其组件的可视化和光传播的提示是非常有帮助的。为此,VirtualLab Fusion提供了个工具来显示光学系统
    发表于 04-13 09:04

    OFDR技术与三维重构的协同价值

    模型上,让结构缺陷位置、应变分布等信息目了然,为实时监测和精准决策提供了可视化支撑。三维重构软件核心功能解析数据交互与模型导入软件支持两种数据处理模式:通过
    的头像 发表于 11-14 17:36 1556次阅读
    OFDR技术与<b class='flag-5'>三维</b>重构的协同价值

    从“重建”到“可用”:aiSim3DGS方案如何闭环自动驾驶仿真场景?

    3DGaussianSplatting(3DGS)凭借高效渲染与逼真场景还原能力,逐渐成为三维重建仿真领域的焦点。然而,实际应用中,如何将多源异构数据高效转化为可用的3DGS场景,如
    的头像 发表于 10-24 17:33 28次阅读
    从“<b class='flag-5'>重建</b>”到“可用”:aiSim3DGS方案如何闭环自动驾驶<b class='flag-5'>仿真</b>场景?

    拆解3D Gaussian Splatting:原理框架、实战 demo 与自驾仿真落地探索!

    ▍文章来源于康谋自动驾驶01引言当前,三维重建技术正处于从"实验室演示"迈向"工业级应用"的关键时期。每次对场景细节的精准还原,每帧实时流畅的渲染效果
    的头像 发表于 10-17 17:33 3696次阅读
    拆解3D Gaussian Splatting:原理框架、实战 demo 与自驾<b class='flag-5'>仿真</b>落地探索!

    种基于多次观测融合的可交互三维高斯场景重建框架

    在计算机视觉和机器人领域,如何完整、真实地重建个可交互的三维场景,直是个难题。传统方法往往依赖复杂的多阶段流程,比如先做分割,再进行背
    的头像 发表于 09-29 11:12 817次阅读
    <b class='flag-5'>一</b>种基于多次观测融合的可交互<b class='flag-5'>三维</b>高斯场景<b class='flag-5'>重建</b>框架

    NVIDIA助力汤元科技突破智能驾驶数据获取与生成瓶颈

    苏州汤元科技有限公司(以下简称“汤元科技”)是家专注于三维重建与世界模型的科技公司,为自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与 NVIDIA Cos
    的头像 发表于 09-06 15:16 1680次阅读

    构建适用于三维集成系统的互连线长分布模型

    三维集成电路设计中,TSV技术通过垂直互连显著优化了互连线长分布特性。基于伦特定律的经典分析框架,可构建适用于三维集成系统的互连线长分布模型
    的头像 发表于 08-21 10:41 1434次阅读
    构建适用于<b class='flag-5'>三维</b>集成<b class='flag-5'>系统</b>的互连线长分布<b class='flag-5'>模型</b>

    航天宏图全栈式3DGS实景三维重建系统解决方案

    表达的核心技术,通过相机、传感器等设备获取物理空间数据,并结合计算机视觉与图形学算法,将二图像转换为三维模型。目前,主流的三维重建方法包括倾斜摄影(多视角立体
    的头像 发表于 06-27 09:28 2113次阅读
    航天宏图全栈式3DGS实景<b class='flag-5'>三维重建</b><b class='flag-5'>系统</b>解决方案

    无刷直流电机磁场定向控制系统研究

    了控制策略及实现方法,并建立系统仿真模型,仿真表明基于FOC的BLDCM控制系统性能良好,转矩脉动小。以STM32FI03B为核心设计了基于
    发表于 06-26 13:31

    模型自适应控制在永磁同步电机转速中的仿真研究

    的可行性和有效性。 纯分享帖,点击下方附件免费获取完整资料~~~ *附件:无模型自适应控制在永磁同步电机转速中的仿真研究.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第
    发表于 06-25 13:01

    激光三维扫描技术:无喷粉条件下高反光表面三维重建的光学原理与应用

    高反光表面的三维重建是工业检测、文化遗产保护等领域的关键技术瓶颈。传统激光扫描依赖喷粉增强漫反射,但会对精密器件或文物造成不可逆损伤。本文通过融合结构光调制、偏振分析及多视角协同技术,构建无喷粉测量
    的头像 发表于 06-25 10:19 1139次阅读

    十二相同步发电机降阶等效模型研究

    摘要:十二相同步发电机整流系统能够提供高品质直流电能,但是发电机模型复杂,解析分析困难。为此,推导了十二相整流发电机的等效相降阶模型和状态空间平均
    发表于 06-17 08:59

    VirtualLab:光学系统三维可视化

    摘要 为了对光学系统的性质有个基本的了解,对其组件的可视化和光传播的提示是非常有帮助的。为此,VirtualLab Fusion提供了个工具来显示光学系统
    发表于 05-30 08:45