facebook AI研究院又发布了一个大规模的词汇实例分割数据集-电子发烧友网

聚焦于关键科学问题的数据不断促进着目标检测领域的技术进步，使得目标检测的性能从简单的图像扩展到了复杂的场景，从边框标注拓展到了语义分割掩膜。

近日来自facebook AI研究院的研究人员们又发布了一个大规模的词汇实例分割数据集（Large Vocabulary Instance Segmentation，LVIS ），包含了164k图像，并针对超过1000类物体进行了约200万个高质量的实例分割标注。由于数据集中包含自然图像中的物体分布天然具有长尾属性，LVIS数据集将促进深度学习在图像分割领域的进一步发展。

目标检测是计算机视觉领域的重要任务，适用性强、用途广泛、发展迅速，近年来在数据集、基准算法和检测能力上都得到了大幅度提升，并衍生出一系列新的能力，包括图像分割、三维表示和三维目标检测等内容。

目前针对目标检测算法的严格测评只在少量的分类上进行（例如20类/80类），那么在真实环境中有大规模类别的物体或者出现了罕见的物体时该如何处理？这就为科学家们提出了新的问题。

图像中目标类别的长尾效应是不可避免的，标注更多的数据集虽然可以有效地发现先前未见或罕见的类别，但有效地从小样本中学习至今还是机器学习与计算机视觉领域一个重要的开放问题，也使得这一领域成为科学界与工业界研究最为活跃的领域。但要深入的对这一领域进行研究，一个高质量的数据集和基准必不可少！

FAIR的研究人员针对这一研究方向设计并收集了称为LVIS的针对于大规模词汇实例分割的数据集，这一数据集包含了164k图像，超过1000类数据，约两百万个标注。

值得一提的是，这个数据集的收集流程没有预先确定的类别（没有类别先验），首先收集图像然后根据图像中目标的自然分布来进行标注。大量的人工标注代替了机器的自动化标注使得图像中自然存在的长尾分布可以被有效识别。

COCO和ADE20K数据集

研究人员设计了一个有效的众包标注流程，可以在高质量标注的前提下获取大规模的数据集。对于目标检测和实例分割来说，标注的质量对于算法十分重要。类似COCO这样相对较粗的标注限制了算法对于mask预测质量的提升。与COCO和ADE20K相比，LVIS数据的标注mask具有更大的重叠面积和更好的边缘连续性。

在构建数据集的过程中，研究人员采用了评价优先的设计原则。这意味着研究人员首先确定了对算法性能进行评价的方法，并基于这一方法来进行数据集的收集和构建，以满足评测方法的需求。研究人员提出的测评基准使用了类似coco风格的的实例分割和AP计算方法。

但针对自然图像中较为长尾的数据集，需要解决两个不可避免的问题：

1）在类别庞大的情况下，如果某个目标拥有多个标签，该如何公平的评测检测器的性能？

2）针对164k图像超过一千个类别的标注任务，如何设计合适的标注流程来减少工作量？

解决这些问题的关键在于构建联合数据集：通过多个小数据集联合构建大规模的完整数据集，而每一个子数据集则类似于只聚焦于某个单一类别的传统数据集。在标注过程中，每一个小数据集将集中标注某一个特定的类别，将图中某个特定类别的所有目标穷尽（exhaustive ）标注。

对于完整的大数据集来说，构成的子数据集间可能会有重叠，单一目标可能会有多个标签。此外由于在每个小数据集中进行了针对一类物体的穷尽标注，在完整的联合数据集中就无需对所有的类别进行穷尽标注，这样的方法极大地减小了标注的工作量。

更为关键的是，在测试评价时算法并不知道每张图片组成的标记类别，它将对所有的标记类别一视同仁地进行处理，这将对联合数据集内的各个数据集提供公平的测评。

LVIS数据集针对的是实例分割任务，这一任务的主要目标是在给定分类已知固定类别的情况下，算法可以针对一张事先未见过的图像进行处理，并输出图像中出现的每一个实例及其对应的分类和置信度分数。通过算法生成的一系列输出，可以计算出掩膜的平均精度mAP。

但在算法的测评中，研究人员将面临着一系列问题。随着分类数目的增加，实例的标签不可避免的将会出现重叠和混淆：部分视觉概念的重合、父子分类关系的的界定和同义词的识别等等。如果没有有效的方法处理这些问题，测评的方法将会产生很大的不公平性。

例如很多玩具都不是鹿，大多数鹿都是不是玩具，但是一只玩具鹿同时是玩具也是一只鹿，这时目标检测算法很有可能得到错误的标记。再比如，一辆车的标记是交通工具vehicle，算法如果输入了car那么就会被判定为错误。

这些问题的发生主要来源于GT标注缺失了一个或者多个描述目标的标签。如果算法预测到了某个标签但是没有在GT中标注过就会得到错误的惩罚。但对于这个新的数据集来说，每一个物体的标签都被穷尽且正确的标注，上面的问题就可以迎刃而解。

数据集标注流程

数据集的标注流程分为了六个主要的步骤包括目标定点、穷尽标记、实例分割和验证、穷尽标注验证、负例标签等。

目标定点中标注者被要求将图像中输入不同类别的实例进行标记，这个阶段将迭代进行，使得标注者可以不断从图像中发掘出自然场景下目标的长尾信息。随后再针对第一阶段标记的每一个类别，将进行彻底的实例标记，找出每一类别包含的所有实例。在图中可以看到标记者又标记出了更多的书。

在第三和第四阶段，分别对前面标记的实例进行实例分割标注和验真，重复进行直到准确率超过99%通过验证。第五阶段将进行穷尽标注验证检测，检查是否所有的实例都被分割和标注类别，如果有就将缺失标注实例的类别筛选出来进行补充标注。最后一步的负例标签将用来验证类别子类的标签没有出现在图像中。更详细的标注细节请参看论文的第三部分。

探索数据集

下面让我们来探索一下数据集，下图中可以看到每张图像里对于某一类图像都进行了完善地标注，小的、被遮掩的难以辨认的，目标实例都被标注了出来。比如第一行最后一列的车牌标注和第三行最后一列的相机标注，尽管很小但也别明确地画出掩膜。这些目标对于图像的抽象和理解十分重要。

下图中各类实例也别分别标注出来了：

子数据集中，每个实例都被穷尽标注。例如对于飞机这个分类，下图展示了每张图片中所有的飞机，无论是飞机的一部分还是完整的飞机都被标注了出来。

还有这些诱人的水果，都被一个个挑了出来。就拿菠萝来说吧，无论是商店里的完整菠萝还是沙拉里的菠萝，就连披萨里的菠萝丁也被标记出来了。

还有更多好玩的的数据集和详细的分类信息，请参看数据集网站：

https://www.lvisdataset.org

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40037
Facebook

Facebook

+关注

关注
3

文章
1427

浏览量
54028
计算机视觉

计算机视觉

+关注

关注
8

文章
1596

浏览量
45602
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24347

原文标题：FAIR提出大规模细粒度词汇级标记数据集LVIS，有效识别长尾分布

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.30】大规模语言模型：从理论到实践

大模型实践和理论研究的过程中，历时8个月完成《大规模语言模型：从理论到实践》一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用

发表于 03-11 15:16

晶晟微纳发布N800超大规模AI算力芯片测试探针卡

近日，上海韬盛科技旗下的苏州晶晟微纳宣布推出其最新研发的N800超大规模AI算力芯片测试探针卡。这款高性能探针卡采用了前沿的嵌入式合金纳米堆叠技术，旨在满足当前超大规模AI算力芯片的高

发表于 03-04 13:59 •267次阅读

Harvard FairSeg：第一个用于医学分割的公平性数据集

为了解决这些挑战，我们提出了第一个大规模医学分割领域的公平性数据集， Harvard-FairSeg。该数据集旨在用于研究公平性的cup-d

发表于 01-25 16:52 •244次阅读

Harvard FairSeg：第一个用于医学<b class='flag-5'>分割</b>的公平性<b class='flag-5'>数据</b>集

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

和语法规则，将这些词汇串联起来，形成一个完整的回答关于LLaMA及LLaMA.cpp LLaMA全称是Large Language Model Meta AI，是由Meta

发表于 12-22 10:18

三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA，涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯

发表于 12-12 11:23 •272次阅读

三项SOTA！MasQCLIP：开放<b class='flag-5'>词汇</b>通用图像<b class='flag-5'>分割</b>新网络

英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

英特尔研究院将重点展示31项研究成果，它们将推进面向未来的AI创新。英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的

发表于 12-08 09:17 •401次阅读

RISC-V内核突破百亿颗 RVV1.0如何解锁端侧AI市场应用潜能

的是，在2022年出货的RISC-V内核中，有一半来自于中国市场。中国工程院院士倪光南表示，开源RISC-V在中国具有超大规模的市场、丰富的应用场景和庞大的工程师群体推动下，已成为中国最受欢迎的CPU

发表于 12-01 13:17

NeurlPS'23开源 | 首个！开放词汇3D实例分割！

我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的

发表于 11-14 15:53 •288次阅读

NeurlPS'23开源 | 首个！开放<b class='flag-5'>词汇</b>3D<b class='flag-5'>实例</b><b class='flag-5'>分割</b>！

大规模个性化定制研究综述！

进入新千年，大规模个性化定制的研究逐渐成为热点。2000 年，Gilmore J H，Joseph Pine再次提出“大规模个性化旨在通过客户参与价值共创（Value Co－creation）过程并充分体验企业排他的或首选的个性

发表于 10-22 09:40 •995次阅读

<b class='flag-5'>大规模</b>个性化定制<b class='flag-5'>研究</b>综述！

基于通用的模型PADing解决三大分割任务

1. 研究动机图像分割旨在将具有不同语义的像素进行分类进而分组，例如类别或实例，近年来取得飞速的发展。然而，由于深度学习方法是数据驱动的，对大规模

发表于 06-26 10:39 •311次阅读

N76E003进入低功耗后，每隔10S会有一个大概10个ma的电流冒出一下又消失是为什么？

请问各位大大，小弟初次使用N76E003，在该芯片进入低功耗后，为什么会大概每隔10S芯片会有一个大概10个ma的电流冒出一下，又消失

发表于 06-20 06:02

立足科技创新，助力品牌打造——纳东信息科技推出AI效率研究院与新闻发布后台系统

高效、创新的品牌推广需求，上海纳东信息科技有限公司荣幸推出了领先的软件开发与品牌设计工具——AI效率研究院小程序以及新闻发布后台系统，以大数据技术和人工智能技术为核心，为企业和个人IP

发表于 05-29 17:10 •630次阅读

中科院发布“香山”与“傲来”两项开源处理器芯片

449个分支（Fork）。随后，中科院软件研究所副所长、总工程师武延军介绍了“傲来”RISC-V原生操作系统。他表示，作为“先导”专项亮点成果之一

发表于 05-28 08:43

AI算法说-图像分割

语义分割是区分同类物体的分割任务，实例分割是区分不同实例的分割任务，而全景

发表于 05-17 14:44 •870次阅读

中国信通院公布 5G 标准必要专利全球最新排名：华为第一、小米首次进入前十

“5G-Advanced”）的第二阶段。5G经过多年的快速发展已实现大规模商用，逐渐成为推动人类社会数字化转型升级的关键支撑。根据GSA的研究，截至2023年3月，全球97个国家或地区的运营商已部署249

发表于 05-10 10:39

搜索历史

facebook AI研究院又发布了一个大规模的词汇实例分割数据集

评论

【书籍评测活动NO.30】大规模语言模型：从理论到实践

晶晟微纳发布N800超大规模AI算力芯片测试探针卡

Harvard FairSeg：第一个用于医学分割的公平性数据集

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

RISC-V内核突破百亿颗 RVV1.0如何解锁端侧AI市场应用潜能

NeurlPS'23开源 | 首个！开放词汇3D实例分割！

大规模个性化定制研究综述！

基于通用的模型PADing解决三大分割任务

N76E003进入低功耗后，每隔10S会有一个大概10个ma的电流冒出一下又消失是为什么？

立足科技创新，助力品牌打造——纳东信息科技推出AI效率研究院与新闻发布后台系统

中科院发布“香山”与“傲来”两项开源处理器芯片

AI算法说-图像分割

中国信通院公布 5G 标准必要专利全球最新排名：华为第一、小米首次进入前十