0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更

CVer 来源:新智元 2023-10-20 16:18 次阅读

efaf7ad2-6f13-11ee-939d-92fbcf53809c.gif

【导读】MagicDrive可以细粒度生成高保真、多相机街景,可以随意变换天气、光照条件以及人物位置,海量自动驾驶数据触手可及!

深度学习算法的应用中,高质量的数据是技术创新的关键驱动力,尤其在自动驾驶领域,获取和标注3D感知数据的成本不菲,对于许多研究者和开发者来说都是一个重大挑战。

为此,来自香港中文大学、香港科技大学和华为诺亚方舟实验室的研究人员联合提出了基于 Diffusion的3D自动驾驶数据生成方法MagicDrive。

通过多种3D几何条件的细粒度控制,MagicDrive在生成高保真多相机街景图像的同时,还能够支持多种下游感知任务的训练。

efd1f9ea-6f13-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2310.02601

项目主页:https://gaoruiyuan.com/magicdrive/

Github: https://github.com/cure-lab/MagicDrive

‍MagicDrive多样化生成数据

MagicDrive是一个突破性的解决方案利用可控生成技术合成自动驾环视相机视图,生成更多样化的自动驾驶数据,为自动驾驶场景仿真提供了新思路。

efe7a682-6f13-11ee-939d-92fbcf53809c.gif

先来看一些MagicDrive的生成效果。

多视角下,前景和背景都能保持一致性:

effec998-6f13-11ee-939d-92fbcf53809c.png

可以一键转雨天:

f00cc6c4-6f13-11ee-939d-92fbcf53809c.png

不止生成车,人、障碍物都能准确控制位置:

f01a1e6e-6f13-11ee-939d-92fbcf53809c.png

还可以一键转夜晚:

f03233fa-6f13-11ee-939d-92fbcf53809c.png

物体位置可以实现细粒度控制:

f03b78f2-6f13-11ee-939d-92fbcf53809c.gif

‍关键问题:多种3D条件的编码与注入

描述自动驾驶场景的条件是多维度的,包括:相机参数、物体框、路面地图以及对场景属性的语言描述(比如天气和时间)。如何将如此复杂的场景信息同时作为条件指导生成,是3D自动驾驶街景数据合成的重点问题。

BEVGen[1]将3D几何信息(路面和物体位置)都投影在BEV空间中,这会丢失全部高度信息,既无法控制物体高度/遮挡,也无法体现路面起伏;BEVControl[2]将3D几何信息分别投影在相机视图中,对于没有高度信息的路面地图而言,投影本身就是一个欠定义的问题,而且这种做法丢失了深度信息,同样无法准确控制遮挡。

f063e59e-6f13-11ee-939d-92fbcf53809c.png

3D几何信息与不同2D投影(相机投影/BEV)控制的比较

MagicDrive在完整考虑这些控制条件的基础上,首次实现3D几何的直接控制。MagicDrive结合Diffusion Model进行条件生成的优势,根据每个控制条件的形式,采用不同的方法对生成进行控制。

f070217e-6f13-11ee-939d-92fbcf53809c.png

MagicDrive的方法框架

具体来说,对于场景级别的信息(语言描述和相机参数)和物体框信息,由于他们具有可变长的性质,MagicDrive先使用不同的编码器讲输入数据编码成嵌入序列,然后使用交叉注意力模块控制图像生成过程;

对于路面地图信息,BEV能够很好地将路面表示成图像的形式,因此,使用类似ControlNet[3]的额外编码器分支,就能够让生成遵循路面地图的条件。

删繁就简:不同视角的一致性生成

多视角一致性是3D场景相机视图生成的另一个重要要求。此前,已经有一些工作探索了室内场景中的多视角一致性约束方法,例如:MVDiffusion[5]和[6],但室内场景通常视角之间重叠较大,因此他们借助了不同的几何先验来限制视角之间的关系。

对于自动驾驶场景,不同相机之间重叠程度是有限的,因此并不需要过强的几何约束。相反,在几何条件足够的情况下(即不同视角已经有独立的几何条件信息),只需要让不同视角的生成过程有信息交互,就能够保证前景和背景的一致生成。

因此MagicDrive提出cross-view attention模块,用于在各个视角的生成过程中与左右相邻视角交换信息,确保了从多个视角看到的前景和背景是一致的,这大大提高了数据的真实性与可靠性。

f085263c-6f13-11ee-939d-92fbcf53809c.png

Corss-view attention 模块控制多视角的一致性

生成效果:在多个下游任务上提升明显

用以真实图像训练的感知模型评价生成模型产生的图片,MagicDrive不仅可以在BEV分割任务上超过baseline,并且能够直接支持3D物体检测任务,体现出优越的生成效果。

MagicDrive生成的图片还可以直接用于数据增强,支持BEV分割和3D物体检测任务,提升BEVFusion[6]和CVT[7]的性能。

除此之外,MagicDrive的多条件控制还可以实现场景、背景和前景的多层次街景图像编辑,用来生成更多的新街景图像。

更多评价结果与讨论请参考原论文。

总结

总的来说,MagicDrive带给我们一个全新的、高效的数据生成途径。不仅成功解决了之街景生成中的3D几何控制问题,而且提供了一种全新的方法,利用细粒度可控生成技术为3D自动驾驶产生训练数据,生成数据的质量和真实性向自动驾驶的感知技术注入了新的活力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模块
    +关注

    关注

    7

    文章

    2484

    浏览量

    46530
  • 3D
    3D
    +关注

    关注

    9

    文章

    2756

    浏览量

    106455
  • 自动驾驶
    +关注

    关注

    773

    文章

    13038

    浏览量

    163224

原文标题:自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是液晶电视可视角

    ,水平可视角度表示以显示器的垂直法线(即显示器正中间的垂直假想线)为准,在垂直于法线左方或右方一定角度的位置上仍然能够正常的看见显示图像,这个角度范围就是液晶显示器的水平可视角度;同样如果以水平法线为准
    发表于 11-18 09:29

    12864液晶 中文资料

    12864液晶 中文资料
    发表于 08-09 21:26

    视角裸眼3D显示器技术发展和市场动态

    视角裸眼3D显示器技术发展和市场动态
    发表于 08-17 13:48

    【天空之城】自动视角跟踪读书架

    书架基础上增加自动提供舒适视角的一种书架。自动提供舒适的视角是本产品的亮点和创新点,更是本产品的出发点。我们在淘宝市场买来的书架只能通过人工的方式来进行视角的调节,为了更加智能化,于
    发表于 12-30 17:13

    【Tisan联网申请】户外集

    申请理由:由于传统的采都是人工的,既费时费力,而且效率不高,基于单片机控制的集器不仅能自动采集雨水,而且还自动换瓶,省时省力。项目描述:由于有多个采样地点,同时控制集板的开合不太容易,基于
    发表于 11-16 11:17

    一场超过56W围观的IoT发布

    ,更是一举打破直播史上IoT发布会收视记录,华丽丽完成直播史and VR直播史上的第一场超过56W围观的联网技术产品发布会,(PS: 4小时直播平均 14-18GB的流量峰值)……
    发表于 09-22 15:13

    工厂车间无线WiFi覆盖解决方案

    都是在一个AP覆盖下,手持设备和移动终端随意移动,不会出现跨AP切换断线或延时的问题,真正意义上的零延时零切换。扇区覆盖的缺点:  适合于敞开的车间、仓库、货场,中间不能有横墙或隔断
    发表于 08-11 17:15

    STMCU中文官网发布了最新的云接入培训课件

    STMCU中文官网发布了最新的云接入培训课件,共4篇培训课件。内容涵盖:联网和联网协议的基本介绍;MQTT即消息队列遥测传输协议的详细介绍;列举STM32现有方案,包括软件包、硬件
    发表于 08-22 15:24

    厉害了!关于珠澳大桥背后的“科技密码”

    激光器、激光检测器和测量电路组成。激光传感器是新型测量仪表,它的优点是能实现无接触远距离测量,速度快,精度高,量程大,抗光、电干扰能力强。由于珠澳大桥采用了很多的海底沉管,在对它们进行位置测量
    发表于 10-25 11:52

    窄带联网将成为发展趋势

    少的,但其重要性不言而喻,并且同样与我们的生活息息相关。窄带联网能否成为未来发展的趋势,是由其自身的特点决定的。通常来说,窄带联网具有广覆盖连接、低功耗、低成本
    发表于 04-30 21:34

    联网技术

    深入人心。三、2020博会整体规划1、权威发布凭借权威资源,在展会平台发布行业白皮书、资深行业报告。2、交流推广服务企业在展会同期举行新产品、新技术
    发表于 06-09 10:02

    定制段码液晶屏如何确认视角反向?

    的是视角就是有LCD显示屏安装在仪器上的位置来确定的,(如:计算器一般是放在桌子上或握在手上,这种做6:00视角比较好,有些LCD液晶屏是安装在低于
    发表于 07-08 09:13

    HarmonyOS-API7相对API6差异主要变更内容

    、系统及应用帐号管理、多线程机制、进程管理、后台任务管理、添加日历/联系、视觉无障碍、人脸识别、传感器管理、WLAN管理、蓝牙管理、NFC标签管理、位置信息。详细情况查看如下:Java API
    发表于 02-15 14:35

    G104XVN01.0​友达10.4寸高清视角工业显示屏

    G104XVN01.0​友达10.4寸高清视角工业显示屏一、友达10.4寸液晶屏G104XVN01.0应用详情品牌:友达型号名称:G104XVN01.0屏幕类型:a-Si TFT-LCD , 液晶
    发表于 03-16 10:02

    中文C语言编程玩转联网华为鸿蒙Hi3861开发-基础案例合集

    继《一套支持中文C语言编程的鸿蒙Hi3861智能硬件开发套件》发布后,中文C语言编程玩转联网华为鸿蒙Hi3861开发,多个基础案例视频,包括交通红绿灯、数码管、光电开关、手指侦测心率
    发表于 05-08 23:50