谷歌Objectron数据集：3D目标检测数据集及检测方案-电子发烧友网

谷歌人工智能实验室近日发布 Objectron 数据集，这是一个以3D目标为中心的视频剪辑的集合，这些视频剪辑从不同角度捕获了较大的一组公共对象。数据集包括 15K 带注释的视频剪辑，并补充了从地理多样的样本中收集的超过 4M 带注释的图像（覆盖五大洲的 10 个国家）。

机器学习(ML)的最新技术已经在许多计算机视觉任务上取得了SOTA的结果，但仅仅是通过在2D照片上训练模型而已。在这些成功的基础上，提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景，如增强现实、机器人、自动化和图像检索。今年早些时候，谷歌发布了 MediaPipe Objectron，一套为移动设备设计的实时 3D 目标检测模型，这个模型是基于一个已标注的、真实世界的 3D 数据集，可以预测物体的 3D 边界。

然而，理解3D 中的对象仍然是一项具有挑战性的任务，因为与2D 任务(例如，ImageNet、 COCO 和 Open Images)相比，缺乏大型的真实世界数据集。为了使研究团体能够继续推进3D 对象理解，迫切需要发布以对象为中心的视频数据集，这些数据集能够捕获更多的对象的3D 结构，同时匹配用于许多视觉任务(例如，视频或摄像机流)的数据格式，以帮助机器学习模型的训练和基准测试。近期谷歌发布了 Objectron 数据集，这是一个以对象为中心的短视频剪辑数据集，从不同的角度捕捉了一组更大的普通对象。

每个视频剪辑都伴随着 AR 会话元数据，其中包括摄像机姿态和稀疏点云。数据还包含为每个对象手动注释的3D 边界，这些 bounding box 描述了对象的位置、方向和尺寸。每个视频剪辑都随附有 AR 的元数据，其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释的 3D 边界框，用于描述对象的位置，方向和尺寸。该数据集包括15K 注释视频剪辑与超过4M 注释图像收集的地理多样性样本(涵盖10个国家横跨五大洲)。

3D 目标检测解决方案

除了这个数据集，谷歌还分享了一个 3D 目标检测解决方案，可以用于4类物体：鞋子、椅子、杯子和相机。这些模型是在 MediaPipe 中发布的，MediaPipe 是谷歌的开源框架，用于跨平台可定制的流媒体机器学习解决方案，它同时也支持机器学习解决方案，比如设备上的实时手势、虹膜和身体姿态跟踪。

与之前发布的 single-stage Objectron 模型相比，这些最新版本采用了两级架构。第一级使用 TensorFlow 目标检测模型来寻找物体的 2D 裁剪，第二级使用图像裁剪来估计三维bounding box，同时计算下一帧对象的二维裁剪，使得目标检测器不需要运行每一帧。第二阶段的三维 bounding box 预测器是以83 FPS在 Adreno 650 GPU 上运行。

3D 目标检测的评估指标

有了真实的注释，我们就可以使用 3D IoU（intersection over union）相似性统计来评估 3D 目标检测模型的性能，这是计算机视觉任务常用的指标，衡量bounding box与ground truth的接近程度。谷歌提出了一种计算一般的面向三维空间的精确 3D IoU 的算法。首先使用 Sutherland-Hodgman Polygon clipping 算法计算两个盒子面之间的交点，这类似于计算机图形学的剔除技术（frustum culling），利用所有截断多边形的凸包计算相交的体积。最后，通过交集的体积和两个盒子的并集的体积计算 IoU。谷歌表示将随数据集一起发布评估的源代码。

数据格式

Objectron 数据集的技术细节，包括使用和教程，均可在数据集网站上获得。这些数据集中的物体包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子等，和数据集一起发布的具有以下内容: 1.视频序列 2.带注释的标签(目标的3D 边界框) 3.AR 元数据 (如照相机姿态、点云和平面表面) 4.处理过的数据集: 混合版本的带注释的帧、tf.example 格式的图像和 SequenceExample 格式的视频 5.支持基于上面描述的度量评估的脚本 6.支持脚本将数据加载到 Tensorflow、Pytorch、Jax并且可视化数据集除了数据集，谷歌还开放了数据管道来解析 Tensorflow、 PyTorch 和 Jax 框架中的数据集。

还提供了 colab notebook 的实例。通过发布这个 Objectron 数据集，谷歌希望能够使研究团体推进三维物体几何理解的极限。同时也希望促进新的研究和应用，如视图合成，改进的 3D 表示和非监督式学习等。参考链接： https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+blogspot%2FgJZg+%28Google+AI+Blog%29

责任编辑：xj

原文标题：重磅！谷歌发布3D目标检测数据集及检测方案

文章出处：【微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2756

浏览量
106450
谷歌

谷歌

+关注

关注
27

文章
5858

浏览量
103251
人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230596

原文标题：重磅！谷歌发布3D目标检测数据集及检测方案

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

如何搞定自动驾驶3D目标检测！

可用于自动驾驶场景下基于图像的3D目标检测的数据集总结。其中一些数据集包括多个任务，这里只报告了3D

发表于 01-05 10:43 •150次阅读

数据中心 3D 机房数字孪生 #数据中心

3D数据中心

阿梨是苹果
发布于 :2023年12月28日 10:02:33

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技获奖作品展示：华南理工大学+CR8_Pro队

发表于 11-02 17:51

CCV 2023 | SparseBEV：高性能、全稀疏的纯视觉3D目标检测器

本文介绍在3D 目标检测领域的新工作：SparseBEV。我们所处的 3D 世界是稀疏的，因此稀疏 3D

发表于 09-19 10:00 •455次阅读

单片机掉电检测与数据掉电保存方案

单片机掉电检测与数据掉电保存方案

发表于 09-18 10:59 •2540次阅读

为什么数据集上传一会网站就上不去了？

为什么数据集上传一会网站就上不去了？

发表于 09-13 07:38

电机控制应用中的人工智能解决方案

在STM32上简单轻松地实现机器学习• 直接在STM32内部运行的智能解决方案• 无需云连接• 对于异常检测无需训练数据集• 无监督的自主学习• 解决异常

发表于 09-08 06:18

光学3D表面轮廓仪可以测金属吗？

光学3D表面轮廓仪是基于白光干涉技术，结合精密Z向扫描模块、3D 建模算法等快速、准确测量物体表面的形状和轮廓的检测仪器。它利用光学投射原理，通过光学传感器对物体表面进行扫描，并根据反射光的信息来

发表于 08-21 13:41

keras制作mnist数据集的流程

第5讲讲解了keras制作mnist数据集的流程，进一步的，有时候我们需要构建自己的数据集。以flower分类为例，见参考3（这里直接用别

发表于 08-18 06:38

如何利用keras打包制作mnist数据集

。脚本参考使用Python解析MNIST数据集 import numpy as np import struct # 训练集文件 train_images_idx3

发表于 08-18 06:12

透明镜片3D扫描尺寸检测逆向工程建模设计-CASAIM

3D扫描

中科院广州电子
发布于 :2023年06月25日 10:19:13

基于 FPGA 的目标检测网络加速电路设计

; Function Description 本项目针对DAC2019 System Design Contest测试集，计划采用PYNQ-Z2开发板加速目标检测网络，综合考虑数据

发表于 06-20 19:45

全面介绍小目标检测的各种解决方案

小目标检测广义是指在图像中检测和识别尺寸较小、面积较小的目标物体。通常来说，小目标的定义取决于具体的应用场景，但一般可以认为小

发表于 06-19 12:32 •2473次阅读

最全自动驾驶数据集分享系列一:目标检测数据集

自动驾驶数据集分享是整数智能推出的一个全新分享系列，在这个系列中，我们将介绍目前为止各大科研机构和企业推出的所有公开自动驾驶数据集。数据集主要分为八个系列：系列一：目标

发表于 06-06 11:15 •2次下载

发动机叶片尺寸检测三维扫描3D比对形变量检测偏差检测服务

3D

中科院广州电子
发布于 :2023年05月29日 15:27:07