0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI发布3D物体数据集,附带标记边界框、相机位姿、稀疏点云

工程师邓生 来源:量子位 作者:萧箫 2020-11-13 14:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

见过3D物体数据集,见过会动的3D物体数据集吗?

每段动态视频都 以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云。

这是谷歌的开源3D物体数据集 Objectron,包含 15000份短视频样本,以及从五个大洲、十个国家里收集来的 400多万张带注释的图像。

谷歌认为,3D目标理解领域,缺少像2D中的ImageNet这样的大型数据集,而Objectron数据集能在一定程度上解决这个问题。

数据集一经推出, 1.6k网友点赞。

有网友调侃,谷歌恰好在自己想“谷歌”这类数据集的时候,把它发了出来。

也有团队前成员表示,很高兴看到这样的数据集和模型,给AR带来进步的可能。

除此之外,谷歌还公布了用Objectron数据集训练的针对 鞋子、椅子、杯子和相机4种类别的3D目标检测模型。

来看看这个数据集包含什么,以及谷歌提供的3D目标检测方案吧~ (项目地址见文末)

9类物体,对AR挺友好

目前,这个数据集中包含的3D物体样本,包括自行车,书籍,瓶子,照相机,麦片盒子,椅子,杯子,笔记本电脑和鞋子。

当然,这个数据集,绝不仅仅只是一些以物体为中心拍摄的视频和图像,它具有如下特性:

注释标签 (3D目标立体边界框)

用于AR数据的数据 (相机位姿、稀疏点云、二维表面)

数据预处理 (图像格式为tf.example,视频格式为SequenceExample)

支持通过脚本运行3D IoU指标的评估

支持通过脚本实现Tensorflow、PyTorch、JAX的数据加载及可视化,包含“Hello World”样例

支持Apache Beam,用于处理谷歌云(Google Cloud)基础架构上的数据集

所有可用样本的索引,包括训练/测试部分,便于下载

图像部分的画风,基本是这样的,也标注得非常详细:

而在视频中,不仅有从各个角度拍摄的、以目标为中心的片段 (从左到右、从下到上):

也有不同数量的视频类型 (一个目标、或者两个以上的目标):

谷歌希望通过发布这个数据集,让研究界能够进一步突破3D目标理解领域,以及相关的如 无监督学习等方向的研究应用。

怎么用?谷歌“以身示范”

拿到数据集的第一刻,并不知道它是否好用,而且总感觉有点无从下手?

别担心,这个数据集的训练效果,谷歌已经替我们试过了。

看起来还不错:

此外,谷歌将训练好的3D目标检测模型,也一并给了出来。 (传送见文末)

算法主要包括两部分,第一部分是Tensorflow的2D目标检测模型,用来“发现物体的位置”;

第二部分则进行图像裁剪,来估计3D物体的边界框 (同时计算目标下一帧的2D裁剪,因此不需要运行每个帧),整体结构如下图:

在模型的评估上,谷歌采用了 Sutherland-Hodgman多边形裁剪算法,来计算两个立体边界框的交点,并计算出两个立方体的 相交体积,最终计算出3D目标检测模型的 IoU。

简单来说,两个立方体重叠体积越大,3D目标检测模型效果就越好。

这个模型是谷歌推出的MediaPipe中的一个部分,后者是一个开源的跨平台框架,用于构建pipeline,以处理不同形式的感知数据。

它推出的MediaPipe Objectron实时3D目标检测模型,用移动设备 (手机)就能进行目标实时检测 。

看, (他们玩得多欢快)实时目标检测的效果还不错:

其他部分3D数据集

除了谷歌推出的数据集以外,此前视觉3D目标领域,也有许多类型不同的数据集,每个数据集都有自己的特点。

例如斯坦福大学等提出的 ScanNetV2,是个室内场景数据集,而ScanNet则是个RGB-D视频数据集,一共有21个目标类,一共1513个采集场景数据,可做语义分割和目标检测任务。

而目前在自动驾驶领域非常热门的 KITTI数据集,也是一个3D数据集,是目前最大的自动驾驶场景下计算机视觉的算法评测数据集,包含市区、乡村和高速公路等场景采集的真实图像数据。

此外,还有Waymo、SemanticKITTI、H3D等等数据集,也都用在不同的场景中。 (例如SemanticKITTI,通常被专门用于自动驾驶的3D语义分割)

无论是视频还是图像,这些数据集的单个样本基本包含多个目标,使用场景上也与谷歌的Objectron有所不同。

感兴趣的小伙伴们,可以通过下方传送门,浏览谷歌最新的3D目标检测数据集,以及相关模型~

Objectron数据集传送门:

https://github.com/google-research-datasets/Objectron/

针对4种物体的3D目标检测模型:

https://google.github.io/mediapipe/solutions/objectron

参考链接:

https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html

https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2989

    浏览量

    113785
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110237
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296348
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143041
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3D传感器到立体相机,解锁工业应用新可能

    3D传感器是实现深度感知的核心技术。这些传感器广泛应用于多种常见的3D视觉技术中,例如立体相机、激光雷达(LiDAR)、飞行时间(ToF)相机和激光三角测量。通常根据应用场景和技术要求
    的头像 发表于 11-28 17:03 1538次阅读
    从<b class='flag-5'>3D</b>传感器到立体<b class='flag-5'>相机</b>,解锁工业应用新可能

    京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体

    随着京东 11.11 大促的火热进行,京东直播再度升级技术布局,以 “立影 3D 技术”“JoyAI大模型”等创新技术,打破传统直播边界,为用户带来更具沉浸感、趣味性的购物体验,引领直播电商技术创新
    的头像 发表于 10-27 14:58 225次阅读

    iTOF技术,多样化的3D视觉应用

    动态模糊,确保高耐光性,同时输出2D(红外)和3D(深度)数据。 ◆ Testing Principles ※ 测量脉冲光的飞行时间,以检测 TOF 相机与被测
    发表于 09-05 07:24

    Zivid3D相机安装使用教程

    Zivid3D相机小巧便携,重量轻,分辨率高,速度快,适合高反光透明物体。本文介绍Zivid 3D相机的操作流程,帮助用户掌握其功能。从硬件
    的头像 发表于 08-26 15:34 417次阅读
    Zivid<b class='flag-5'>3D</b><b class='flag-5'>相机</b>安装使用教程

    3D工业相机价格是?这种3D工业相机性价比最高

    3D 工业相机市场,一场价格与质量的博弈已然展开。企业在选择时面临着艰难困境,国际品牌筑起高高的价格壁垒,国产品牌又深陷低价低质的怪圈。我们该如何为打破这一局面?
    的头像 发表于 07-29 11:25 706次阅读
    <b class='flag-5'>3D</b>工业<b class='flag-5'>相机</b>价格是?这种<b class='flag-5'>3D</b>工业<b class='flag-5'>相机</b>性价比最高

    英伦科技10.1英寸裸眼3D数码相框升级了,玩转AI文生图太cool了!

    此次升级将AI内容生成与裸眼3D显示深度结合,解决了传统3D内容制作成本高的痛,使普通用户也能轻松创作个性化立体图像。配合无线传输、智能转化等成熟功能,该产品已成为
    的头像 发表于 07-03 11:31 11.3w次阅读
    英伦科技10.1英寸裸眼<b class='flag-5'>3D</b>数码相框升级了,玩转<b class='flag-5'>AI</b>文生图太cool了!

    迁移科技推出全新3D智能相机

    工业视觉领域迎来里程碑式突破!迁移科技正式发布全系升级的3D智能相机,将强悍算力直接嵌入相机内部,替代传统 “相机 + 工控机 + 显卡”
    的头像 发表于 05-29 13:58 717次阅读

    2025年3D工业相机选型及推荐

    3D工业相机的选型
    的头像 发表于 05-21 16:49 1114次阅读
    2025年<b class='flag-5'>3D</b>工业<b class='flag-5'>相机</b>选型及推荐

    告别漫长等待! 3D测量竟然可以如此的丝滑

    原理介绍海伯森3D闪测传感器HPS-DBL系列采用超高速投影方式向测量对象上投射出不同波长的特殊图案,并采集物体表面的图案信息,配合海伯森HPS-NB3200高性能视觉控制器和内置AI解码算法对
    的头像 发表于 05-12 18:01 553次阅读
    告别漫长等待! <b class='flag-5'>3D</b>测量竟然可以如此的丝滑

    一种以图像为中心的3D感知模型BIP3D

    在具身智能系统中,3D感知算法是一个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景和3D标签,具备重要的研究价值。现有主流算法主要依赖于
    的头像 发表于 03-17 13:44 954次阅读
    一种以图像为中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    对于结构光测量、3D视觉的应用,使用100%offset的lightcrafter是否能用于生成的应用?

    你好,我有一些对于offset的疑问,希望能够得到解答。 对于结构光测量、3D视觉的应用,使用100%offset的lightcrafter是否能用于生成的应用? 标定和三角重建算法和zero
    发表于 02-28 06:20

    Captic:利用AI3D相机革新自动化生产

    。 Captic的核心竞争力在于其先进的AI视觉系统,该系统是基于与奥比中光的合作,利用3D相机技术精心打造而成。这一创新技术不仅极大地扩展了自动化应用的功能边界,更为工厂的生产效率带
    的头像 发表于 02-11 14:39 901次阅读

    腾讯混元3D AI创作引擎正式发布

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在AI技术领域的又一重大突破。 混元
    的头像 发表于 01-23 10:33 974次阅读

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要一步。 混元3D AI
    的头像 发表于 01-22 10:26 948次阅读

    C#通过Halcon实现3D重绘

    C# 通过 Halcon 实现 3D 重绘
    发表于 01-05 09:16 0次下载