0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容

DPVg_AI_era 来源:lq 2019-01-12 09:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2018 年 9 月腾讯 AI Lab 开源 “Tencent ML-Images” 项目,该项目由多标签图像数据集 ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络 ResNet-101 构成。 近日腾讯在 arxiv 上发布论文详细介绍了数据集的构成以及评价标准等内容,对 Tencent ML-Images 数据集的理解很有帮助。

腾讯 AI Lab 公布的图像数据集 ML-Images,包含了 1800 万图像和 1.1 万多种常见物体类别,在业内已公开的多标签图像数据集中规模最大,足以满足一般科研机构及中小企业的使用场景。

此外,腾讯 AI Lab 还提供基于 ML-Images 训练得到的深度残差网络 ResNet-101。该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

题目:Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

作者:Baoyuan Wu, Weidong Chen, Yanbo Fan, Yong Zhang, Jinlong Hou, Junzhou Huang, Wei Liu, Tong Zhang

【摘要】

在现有的视觉表示学习任务中,深度卷积神经网络(CNN)通常是针对带有单个标签的图像进行训练的,例如 ImageNet。然而,单个标签无法描述一幅图像的所有重要内容,一些有用的视觉信息在训练过程中可能会被浪费。在这项工作中,我们建议对带有多个标签的图像进行训练,以提高训练后的 CNN 模型的视觉表示质量。

为此,我们构建了一个大规模的多标签图像数据库,其中包含 18000000 个图像和 11000 个类别,我们称之为 Tencent ML-Images。我们基于大规模分布式深度学习框架,即 TFplus,在 Tencent ML-Images 上高效训练 ResNet-101 多标签输出模型,共 60 个 epoch,耗时 90 小时。 通过 ImageNet 和 Caltech-256 上的单标签图像分类、PASCAL VOC 2007 上的对象检测、PASCAL VOC 2012 上的语义分割三个迁移学习任务,验证了 Tencent ML-Images checkpoint 的视觉表示质量良好。

腾讯 ML-Images 数据库,ResNet-101 的 checkpoint 以及所有训练代码已在https://github.com/Tencent/tencent-ml-images上发布。它有望推动研究领域和工业界的其他视觉任务的发展。

论文地址:

https://arxiv.org/abs/1901.01703

作者简介

第一作者是吴保元,现在是腾讯 AI Lab 的高级研究员,2014 年 8 月至 2016 年 11 月在 KAUST 进行博士后学习,与 Bernard Ghanem 教授一起工作。2014 年 6 月获得中国科学院自动化研究所模式识别国家重点实验室博士学位,导师为胡包钢教授。作者研究兴趣包括机器学习计算机视觉和优化,包括图像标注、弱 / 无监督学习、结构化预测、概率图模型、视频处理和整数规划。

https://sites.google.com/site/baoyuanwu2015/home

其他作者包括樊艳波、张勇也都是博士毕业于中科院自动化研究所,师从胡包钢教授。

文章简介

这项工作在新建的多标签图像数据库(称为 Tencent ML-Images)上展示了大规模的视觉表示学习。文章从讨论以下两个问题开始。

为什么我们需要大规模的图像数据库?深度学习一直处于长期低谷,直到 2012 年,AlexNet 在 ILSVRC2012 挑战的单标签图像分类任务中取得了令人惊讶的成绩。深度神经网络的潜力是通过大规模的图像数据库释放出来的,即 ImageNet-ILSVRC2012 。此外,对于许多视觉任务,如目标检测和语义分割,获取训练数据的成本是非常高的。由于训练数据不足,需要在其他大型数据库上预先训练好的视觉呈现良好的 checkpoint 作为初始化,用于其他视觉任务 (如针对单标签图像分类的 ImageNet-ILSVRC2012)。

为什么我们需要多标签图像数据库?由于在大多数自然图像中存在多个对象,单个标注可能会遗漏一些有用的信息,从而误导 CNN 的训练。例如,同时包含牛和草的两个视觉上相似的图像可能分别被标注为牛和草。合理的方法是 “告诉”CNN 模型这两幅图像同时包含牛和草。

这项工作的主要贡献有四个方面:

建立了一个包含一千八百万张图像和一万一千个类别的多标签图像数据库,被称为 Tencent ML-Images,这是迄今为止最大的公开可用的多标签图像数据库。

利用大规模分布式深度学习框架,在 Tencent ML-Images 上有效地训练 ResNet-101 模型。此外,还设计了一种新的损失函数来缓解大规模多标签数据库中严重的类失衡问题。

我们通过迁移学习三种不同的视觉任务,证实了 Tencent ML-Images 和其预训练的检查点有着比较好的质量。

在 GitHub(https://github.com/Tencent/tencent-ml-images)上发布了 Tencent ML-Images 数据库,包含训练的 ResNet-101 检查点,以及从数据预处理,预训练,微调到图像分类和特征提取的完整代码。预计这将推动研究领域和工业界的其他视觉任务的发展。

附文章中部分结果

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像分类
    +关注

    关注

    0

    文章

    96

    浏览量

    12415
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26047

原文标题:论文终于公布!腾讯开源最大规模多标签图像数据集,刷新行业数据集基准

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    发布元服务设置架时间

    ”区域,设置架时间。指定时间:选择时为您的本地时间,设置完成后,系统将自动转换成UTC标准时间,并显示时间框后。 说明 如果后续需要在指定时间前架,可以手动
    发表于 12-03 09:46

    发布元服务配置内容分级

    年龄分级作为元服务的重要属性,在华为应用市场的应用详情页展示给用户,帮助用户找到适合其年龄段的元服务,从而为未成年人用户打造纯净的使用环境。 1.AGC提供调查问卷,根据您回答的内容,自动生成
    发表于 11-21 11:29

    修改广播内容(如名称、UUID、广播数据)时是否需要停用当前广播功能

    修改广播内容(如名称、UUID、广播数据)时, 通常需要先停止当前广播,修改参数后再重新启动广播 ,才能确保新配置生效且功能稳定。具体逻辑如下: 1. 主流蓝牙芯片的操作流程(以
    发表于 10-31 13:01

    软硬件协同技术分享 - 任务划分 + 自定义指令

    开发技术。分文将分享介绍硬件加速器与软件结合的协同开发方式 软硬件任务划分 我们的硬件设计涉及到MFCC模块。直接交由CPU的一次指令的五级流水线处理麦克风数据取入的资源耗费
    发表于 10-28 08:03

    指令P扩展的主要内容

    1. 指令P扩展的主要内容 新指令的添加,蜂鸟E203原有指令的基础,可以添加一些新的指令,以满足新的应用需求;指令
    发表于 10-21 10:50

    订单评价内容采集接口技术解析

    ​  现代电商系统中,订单评价内容采集接口是核心组件之一,用于高效获取用户对商品或服务的反馈数据。本文将逐步介绍该接口的设计原理、实现方法和最佳实践,帮助开发者快速构建可靠的
    的头像 发表于 10-17 15:14 269次阅读
    订单<b class='flag-5'>评价内容</b>采集接口技术解析

    腾讯地图AI时代的全新思考与实践

    9月17日,2025腾讯全球数字生态大会地图专场上,腾讯集团副总裁、腾讯智慧出行总裁钟翔平分享腾讯
    的头像 发表于 09-18 10:32 679次阅读

    PCIM2025论文摘要 | 基于英飞凌S-cell产品的嵌入式PCB方案主驱逆变器应用的优势分析与研究

    完整版内容请关注2025PCIMAsia英飞凌将为您带来更多分享*本论文摘要由PCIM官方授权发布内容摘要本文介绍
    的头像 发表于 09-02 18:42 3361次阅读
    PCIM2025<b class='flag-5'>论文</b>摘要 | 基于英飞凌S-cell产品的嵌入式PCB方案<b class='flag-5'>在</b>主驱逆变器应用的优势分析与研究

    易华录参编的绿色数据中心评价国家标准发布

    近日,我国首部数据中心绿色化评价方面国家标准《绿色数据中心评价》正式实施,标志着国家层面绿色
    的头像 发表于 06-07 09:57 863次阅读

    NVIDIA多模态生成式AI领域的突破性进展

    今年的国际学习表征大会(ICLR),NVIDIA 发表 70 余篇论文,其内容涵盖医疗、机器人、自动驾驶汽车
    的头像 发表于 05-15 10:49 805次阅读

    【「# ROS 2智能机器人开发实践」阅读体验】+内容初识

    规划:导航是机器人自主运行的关键功能。书中详细介绍基于 ROS 2 的导航系统,包括地图创建、路径规划和导航控制环节。首先,通过激光雷达
    发表于 04-27 11:24

    锁相环(PLL)电路设计与应用(全9章)

    内容介绍本文档主要介绍锁相环(PLL)电路的设计与应用,内容包括PLL工作原理与电路构成、PLL电路的传输特性、PLL电路中环路滤波器的设计
    发表于 04-18 15:34

    创北方LED显示TCON解决方案演示

    本次“新型显示产业与LED标准发展研讨会“创北方向合作伙伴展现
    的头像 发表于 03-11 11:21 2339次阅读

    有方科技参编的信息技术团体标准发布

    能力评价》团体标准由中国计算机行业协会正式发布实施,明确信息技术产品供应链成熟度共性指标中企业背景、技术掌控、供给能力评价一级指标框架
    的头像 发表于 12-23 10:44 908次阅读

    【「大话芯片制造」阅读体验】+内容概述,适读人群

    和设备、检验中如何发现问题以及如何出货。回答芯片制造为何要高标准的问题。涉及到芯片制造成本,化学药品,项目管理部分内容。 总的来说,《大
    发表于 12-21 16:32