0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索ICLR‘24 Spotlight中的首个十亿级别3D通用大模型

3D视觉工坊 来源:3DCV 2024-01-25 10:10 次阅读

智源视觉团队近期的工作:3D视觉大模型Uni3DICLR 2024的评审中获得了688分,被选为Spotlight Presentation。在本文中,作者第一次将3D基础模型成功scale up到了十亿(1B)级别参数量,并使用一个模型在诸多3D下游应用中取得SOTA结果。代码和各个scale的模型(从6M-1B)均已开源:

3ebcb348-bb0d-11ee-8b88-92fbcf53809c.png

作者主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很impressive的结果,但是在3D视觉中模型的scale up始终没有成功。Uni3D旨在将NLP/2D中scale up的成功复现到3D表征模型上。

wKgaomWxwz2APhVyAAK0x5tfPxA652.png

在这项工作中,作者提出了一个3D基础大模型Uni3D,直接将3D backbone统一为ViT(Vision Transformer),以此利用丰富和强大的2D预训练大模型作为初始化。Uni3D使用CLIP模型中的文本/图像表征作为训练目标,通过学习三个模态的表征对齐(点云-图像-文本)实现3D点云对图像和文本的感知。同时,通过使用ViT中成功的scale up策略,我们将Uni3D逐步 scale up,训练了从Tiny到giant的5个不同scale的Uni3D模型,成功地将Uni3D扩展到10亿级别参数。

3ed39fcc-bb0d-11ee-8b88-92fbcf53809c.png

下游应用:

Uni3D在多个3D任务上达到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

零样本/少样本分类

Uni3D在ModelNet上实现了88.2%的零样本分类准确率,甚至接近了有监督学习方法的结果(如PointNet 89.2 %);

在最困难的Objaverse-LVIS基准下,Uni3D取得了55.3%的零样本分类准确率,大幅刷新了该榜单。

而在Objaverse-LVIS基准的少样本分类测试中,Uni3D实现了83.1%的准确率(16样本下),明显超过了以往的最先进基准OpenShape 32%。

3ed74f32-bb0d-11ee-8b88-92fbcf53809c.png

开放世界的理解能力

研究团队采用与CLIP2相同的设置在ScanNet测试集下探究Uni3D在现实场景下的零样本识别性能。与之前最先进的SOTA方法PointCLIP、PointCLIP V2 、CLIP2Point 和CLIP2 相比,Uni3D表现最佳。

3f647e02-bb0d-11ee-8b88-92fbcf53809c.png

3f68d704-bb0d-11ee-8b88-92fbcf53809c.png

Uni3D在少样本点云部件分割任务上也展示出了卓越的性能。下表结果显示,在各种实验条件下,Uni3D的性能都明显优于Point-BERT等基线方法。即便只使用每类一个样本训练,Uni3D也达到了使用10%的训练数据的先前基线方法(如PointNet++,Point-BERT)的水平,在训练集的规模相对减少两个数量级的情况下,仍能显示出Uni3D更强的细粒度3D结构理解能力。

3f89fe3e-bb0d-11ee-8b88-92fbcf53809c.png

由于学到了强大的多模态表征能力,Uni3D还能够做一些有意思的应用,如point cloud painting(点云绘画),text/image-based 3D shape retrieval(基于图像/文本的3D模型检索),point cloud captioning(点云描述):

点云绘画:体现了在3D AIGC上的潜在能力

给定一个文本,Uni3D通过优化点云的颜色来提高点云和文本在特征空间的相似度,基于此实现文本操控的点云内容创作和点云绘画。

3f8dd298-bb0d-11ee-8b88-92fbcf53809c.png

文本驱动/图像驱动的三维形状检索:体现在构建多模态检索库上的潜在能力

Uni3D通过学习到的统一的三维多模态表示,具有感知多个2D/语言信号的能力,可以通过图像或文本输入从大型3D数据集中检索三维形状。这是通过计算查询图像/文本提示的embedding与3D形状的embedding入之间的余弦相似度来实现了对查询的最相似3D形状的获取。

Uni3D 还可根据输入文本来检索 3D 形状

将之前已经成熟的“文搜图/图搜图”扩展到“文搜3D/图搜3D”,这使得检索互联网上大规模未标定的繁杂三维模型成为可能,为相关三维领域从业者、创作者搜集素材提供实用工具。

Uni3D 还可给定点云生成对应的文本描述

Uni3D扩展为Text-to-3D generation tasks的评测指标

在text-to-3D研究领域,目前量化度量仍然是一个较难的问题。目前的量化指标都是将生成的3D模型渲染为2D图片,利用2D指标衡量生成质量。然而由于渲染角度互相独立以及3D模型自遮挡等问题,2D评价指标难以完全真实反映出3D生成模型的真实能力。如下图,生成的3D模型有明显的3D不一致性问题,但是单独看其中大部分的视角渲染图片都是正常的物体,导致2D评价指标往往难以反映生成3D模型的不一致问题。

作者团队近期推出的Text-to-3D generation 工作GeoDream提出利用目前最大最强的3D基础模型Uni3D,直接对3D模型进行评估,避免渲染带来的视角问题。相应的评价指标代码也开源到GeoDream的代码库中 (https://github.com/baaivision/GeoDream) 。

量化比较:在生成质量和语义保持性的量化测试上,GeoDream相比于之前方法取得显著提升。在基于渲染2D图片的量化指标(FID,CLIP-Score)和直接在3D空间度量生成的3D资产量化指标(Uni3D-Score)上均有提升,说明GeoDream渲染的图片和3D结构均有优势。

3fe8b046-bb0d-11ee-8b88-92fbcf53809c.png

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D视觉
    +关注

    关注

    4

    文章

    394

    浏览量

    27301
  • 大模型
    +关注

    关注

    2

    文章

    1543

    浏览量

    1139

原文标题:ICLR‘24 Spotlight 首个十亿级别3D通用大模型

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ad193d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致
    发表于 04-24 13:41

    LABVIEW如何驱动3D模型

    基于soildwork绘制的3D机器人模型,要求实际的机器人在运动时,将3D模型加载在LABVIEW,与实际机器人同步动作,做运动演示。
    发表于 02-28 16:51

    Labview 3D模型

    新手求助……有没有哪位大神会利用labview显示3D模型(含装配体,需要转动不同的部位)吗?是用3D传感器映射啊?
    发表于 08-26 01:20

    3D 模型封装

    求PLCC封装3D模型,最好是完整的
    发表于 12-27 16:53

    Labview如何导入3D模型

    Labview如何导入3D模型,例如3Dmax生成的模型。尝试过用.STL格式导入Labview。但是
    发表于 01-26 13:13

    Altium Designer(14.1)如何导入3D模型

    Altium Designer(14.1)如何导入3D模型
    发表于 03-06 22:52

    3d模型问题

    最近在学3d模型,遇到些问题,请教大家。1.3D模型的格式。模型是用3dmax做的,为
    发表于 11-12 17:14

    PCB3D应用相关功能详解

    Body命令就可以实现。打开3D体属性对话框。其中有四种选项,“Extruded”,“Cylinder”,“Sphere”以及通用3D模型“Generic
    发表于 07-05 08:00

    如何创建3D模型

    怎么创建3D模型
    发表于 09-17 05:35

    分享贴片3D模型

    分享贴片3D模型
    发表于 12-18 21:08

    浩辰3D软件如何创建槽特征?3D模型设计教程!

    3D模型设计创建槽特征是十分常见的,那么在浩辰3D软件如何创建槽特征呢?下面小编就来给大家介绍一下浩辰
    发表于 09-28 16:16

    浩辰3D软件入门教程:如何比较3D模型

    差异。步骤一:点选「比较模型」功能在浩辰3D软件的开始菜单,选择「工具」选项卡,并且点选「比较模型」功能。输入参考模型和工作
    发表于 12-15 13:45

    AD的3D模型绘制功能介绍

    `  首先,在封装库的编辑界面下,我们点击菜单栏目的Place-》3D Body,见图(1)。    图(1)3D模型打开步骤  打开后就会出现信息编辑界面,见图(2)。我们可以看到AD的3D
    发表于 01-14 16:48

    3D模型的基础介绍

    3D模型基础
    发表于 01-28 07:50

    3D设计软件怎么创建风扇叶模型?浩辰3D基础教程

    环节。下面,小编将通过绘制生活中常见的风扇叶模型,展示如何通过浩辰3D设计软件高效地完成日常的创新设计需求。1、叶毂绘制在浩辰3D设计软件的草图选项卡,点选「草图绘制」,绘制出叶毂的
    发表于 06-04 14:11