0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI研发TensorFlow3D操作速度竟提高二十倍

新机器视觉 来源:Google AI 作者:Google AI 2021-03-12 09:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导读

Google AI发布了TensorFlow 3D,将3D深度学习能力引入TensorFlow,加入3D稀疏卷积网络,在Waymo Open数据集上的实验表明,这种实现比预先设计好的TensorFlow操作提速「20倍」。随着自动驾驶汽车与机器人的深入发展,激光雷达、深度传感摄像机、雷达等3D传感器已经成为了获取道路数据的必要设备。而利用这些传感器的机器学习系统则显得尤为重要,因为它可以帮助硬件在现实世界中进行导航等操作。

近期,包括目标检测、透明目标检测等模型的3D场景理解方面取得了很大进展,但是由于3D数据可用的工具和资源有限,这个领域仍面临挑战。

TensorFlow 3D:TensorFlow与3D深度学习合体

为了进一步提高对3D场景的建模,简化研究人员的工作,Google AI发布了TensorFlow 3D (TF 3D) ,一个高度模块化、高效的库,旨在将3D深度学习能力引入TensorFlow. TF 3D提供了一系列当下常用的操作、损失函数、数据处理工具、模型和度量,使更多的研究团队能够开发、培训和部署最先进的3D场景理解模型。TF 3D包含用于最先进的3D语义分割、3D目标检测和3D实例分割的培训和评估任务,还支持分布式训练。

另外,TF 3D还支持其他潜在的应用,如三维物体形状预测、点云配准和点云增密。此外,它提供了一个统一的数据集规范和训练、评价标准三维场景理解数据集的配置。

目前,TF 3D支持Waymo Open、 ScanNet和Rio数据集。然而,用户可以自由地将其他流行的数据集,如NuScenes和Kitti,转换成类似的格式,并将其用于已有或自定义的pipeline模型中,还可以利用TF 3D进行各种3D深度学习研究和应用,从快速原型设计到部署实时推理系统。

左边显示的是TF 3D中3D物体检测模型在Waymo Open Dataset的一帧画面上的输出示例。右边是ScanNet数据集上3D实例分割模型的输出示例。

在这里,我们将介绍在TF 3D中提供的高效且可配置的稀疏卷积骨干,这是在各种3D场景理解任务中获得最先进结果的关键。此外,我们将逐一介绍TF 3D目前支持的3个流水线任务: 3D语义分割、3D目标检测分割和3D实例分割。

3D稀疏卷积网络

传感器采集到的3D数据通常包含一个场景,该场景包含一组感兴趣的物体(如汽车、行人等),其周围大多是开放空间。所以,3D数据本质上是稀疏的。在这样的环境中,卷积的标准实现将需要大量的计算、消耗大量的内存。因此,在TF 3D 中,我们采用了流形稀疏卷积(submanifold sparse convolution)和池操作,这些操作可以更有效地处理3D稀疏数据。稀疏卷积模型是大多数户外自动驾驶(如Waymo,NuScenes)和室内基准测试(如 ScanNet)中应用的sota方法的关键。

谷歌还应用了各种CUDA技术来加快计算速度(如hash、在共享内存中分区/缓存过滤器以及使用位操作)。在Waymo Open数据集上的实验表明,这种实现比预先设计好的TensorFlow操作要快「20倍」左右。

图源:Waymo Open Dataset on GitHub

然后,TF 3D使用3D流形稀疏U-Net架构来提取每个voxel的特征。通过让网络提取粗细特征并将它们组合起来进行预测,U-Net架构已被证明是有效的。

U-Net网络由编码器、瓶颈和解码器三个模块组成,每个模块都由许多稀疏卷积块组成,并可能进行池化或非池化操作。

一个3D稀疏体素U-Net架构。注意,一个水平的箭头接收体素特征,并对其应用流形稀疏卷积。向下移动的箭头会执行流形稀疏池化。向上移动的箭头将收集池化的特征,与水平方向箭头的特征进行concat,并对concat后的特征进行流形稀疏卷积。

上述稀疏卷积网络是TF 3D提供的3D场景理解pipeline模型的backbone。

下面描述的每个模型使用这个骨干网络提取稀疏体素特征,然后添加一个或多个额外的预测头来推断感兴趣的任务。

用户可以通过改变编码器/解码器层数和每层卷积的数量来配置U-Net网络,并通过修改卷积滤波器的尺寸,从而能够通过不同的网络配置来权衡的速度和精度。

三维语义分割

三维语义分割模型只有一个输出,用于预测每一个点的语义分数,将其映射回点,预测每一个点的语义标签从ScanNet数据集对室内场景进行3D语义分割。

三维实例分割

在三维实例分割中,除了要预测语义,更重要的是将同一对象的体素组合在一起。在TF 3D中使用的3D实例分割算法是基于用深度度量学习方法进行的2D图像分割工作。这种模型预测能预测每个体素的实例嵌入向量以及每个体素的语义评分。

实例嵌入向量将体素映射到一个嵌入空间,其中对应于同一对象实例的体素相距很近,而对应于不同对象的体素相距很远。在这种情况下,输入是一个点云而不是一个图像,并且他将使用一个三维稀疏网络而不是一个二维图像网络。在推理过程中利用贪心算法选取实例种子,并利用体素嵌入的距离函数将不同的体素聚合到对应的实例上去。

三维目标检测

目标检测模型可以预测每个体素的大小、中心和旋转矩阵以及对象的语义评分。在推理时,推选机制将给出的多个候选框处理为少数几个精确的3D目标框。在训练时使用了预测与GT间的Huber Loss距离来计算损失。由于利用大小、中心和旋转矩阵估算框边角是可差分过程,损失可以自然地传递到预测过程的权重中。研究人员利用动态框分类损失来对预测的框进行正例和负例进行区分。

ScanNet数据集上的3D物体检测结果

TF 3D只是市场上的3D深度学习扩展之一。2020年,Facebook推出了PyTorch3D,专注于3D渲染和虚拟现实。另一个是英伟达的Kaolin,这是一个模块化的可分辨渲染的应用,如高分辨率模拟环境。

从这个概述来看,TF 3D应用程序似乎更专注于机器人感知和映射,而其他选项则更专注于3D模拟和渲染。为了实现3D渲染,Google推出了TensorFlow Graphics.

参考资料:

https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    3022

    浏览量

    115571
  • tensorflow
    +关注

    关注

    13

    文章

    336

    浏览量

    62375

原文标题:提速20倍!谷歌AI发布TensorFlow 3D,智能汽车场景亲测好用

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NORDIC AI的好处

    × 在 CPU 上运行时可快 10×、更省电,平均模型体积 <5 KB。[Edge AI 软件页] Axon NPU 对同一 TensorFlow Lite 模型:* 推理速度最高可比
    发表于 01-31 23:16

    AI设计+3D打印:火箭发动机研发的“新范式革命”

    最近几年,一种全新的研发模式正在悄然颠覆这一“重工业”逻辑——人工智能(AI)自主设计发动机结构,金属3D打印直接制造整机,短短几周内完成从零到成功点火的全过程。这场由算法与打印机驱动的“新范式革命”,正让火箭发
    的头像 发表于 01-20 18:16 787次阅读

    谷歌评论卡,碰一碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    如何在TensorFlow Lite Micro中添加自定义操作符(1)

    相信大家在部署嵌入式端的AI应用时,一定使用过TensorFlow Lite Micro,以下简称TFLm。TFLm 是专为微控制器和嵌入式设备设计的轻量级机器学习推理框架,它通过模块化的操作符系统
    的头像 发表于 12-26 10:34 5775次阅读

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方
    的头像 发表于 11-24 11:10 1429次阅读
    <b class='flag-5'>谷歌</b>正式推出最新Gemini <b class='flag-5'>3</b> <b class='flag-5'>AI</b>模型

    突破传统!AI3D相机与边缘计算打造智能运动系统

    ,一个新的维度变得至关重要:智能。要实现真正智能的运动系统,必须融合三项关键技术:人工智能(AI)、3D相机和边缘计算。三者结合,使机器不仅能精准移动,还能实时感知
    的头像 发表于 10-31 17:02 759次阅读
    突破传统!<b class='flag-5'>AI</b>、<b class='flag-5'>3D</b>相机与边缘计算打造智能运动系统

    【CPKCOR-RA8D1】AI人脸检测

    在瑞萨 RA8D1 开发板上集成 AI 人脸检测功能 1. 项目概述 该项目是根据官方AI人脸检测代码,在官方显示屏显示代码的基础上进行修改而得。由于本人实力有限,最后的结果并不理想,无法实现检测
    发表于 10-29 17:59

    谷歌AlphaEarth和维智时空AI大模型的技术路径

    谷歌AlphaEarth和维智时空AI大模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 1052次阅读

    洛微科技携4D FMCW激光雷达与3D感知方案闪耀光博会,引领行业新趋势

    2025年9月10至12日,第二十六届中国国际光电博览会(CIOE)在深圳隆重举行。杭州洛微科技有限公司作为激光雷达与3D感知领域的创新企业受邀参展。公司营销副总刘飞在会上发表了题为《FMCW
    的头像 发表于 09-18 15:12 1362次阅读
    洛微科技携4<b class='flag-5'>D</b> FMCW激光雷达与<b class='flag-5'>3D</b>感知方案闪耀光博会,引领行业新趋势

    华曦达亮相谷歌AI亚洲峰会,AI Home业务高增长引领发展新征程

    AI亚洲峰会现场 华曦达基于谷歌云技术底座打造的AIHome解决方案及其自主研发的HomeAIAgent——Cedar成为关注焦点。该系统通过AI驱动的学习与自适应,实时理解并预测用户
    的头像 发表于 09-10 10:22 663次阅读

    Zivid3D相机安装使用教程

    Zivid3D相机小巧便携,重量轻,分辨率高,速度快,适合高反光透明物体。本文介绍Zivid 3D相机的操作流程,帮助用户掌握其功能。从硬件连接、软件安装到参数设置,重点涵盖点云生成、
    的头像 发表于 08-26 15:34 779次阅读
    Zivid<b class='flag-5'>3D</b>相机安装使用教程

    AI 芯片浪潮下,职场晋升新契机?

    对复杂场景中目标检测与识别的速度和精度。在此过程中,对算法的理解深度、芯片架构与算法的协同能力,都会成为职称评审中的加分项。 除技术能力外,创新能力同样不可或缺。AI 芯片行业发展日新月异,新技术
    发表于 08-19 08:58

    如何提高3D成像设备的部署和设计优势

    3D视觉技术正快速普及,其增长得益于成本下降和软件优化,应用场景从高端工业扩展到制造、物流等领域。该技术通过1-2台3D相机替代多台2D设备,显著提升效率并降低成本。目前主流3D成像技
    的头像 发表于 08-06 15:49 933次阅读
    如何<b class='flag-5'>提高</b><b class='flag-5'>3D</b>成像设备的部署和设计优势

    Nordic收购 Neuton.AI 关于产品技术的分析

    生成比传统框架(如 TensorFlow、PyTorch 等)小 10 倍的模型,模型体积可低至个位数 KB,并且推理速度更快、功耗更低。此次收购将 Neuton 的自动化 TinyML 平台
    发表于 06-28 14:18

    自制一个支持AI 控制的无刷平衡车机器人:开源项目D-BOT全攻略

    今天给大家介绍一款创意桌面机器人——D-BOT!它不仅是一个功能强大的平衡车机器人,也是一个融合了AI控制、3D建模与PCB设计的开源项目。 D-BOT 被作者称为“小探险家”(Di
    发表于 04-28 11:45