0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何创建高质量、大规模、多语言的数据集

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-29 10:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

多模式视觉语言模型依赖大量数据集来对图像和文本之间的关系进行建模。一般来说,这些数据集有两种创建方法:手动为图像添加文字说明,或抓取网页并提取替代文本 (alt-text)作为文字说明。虽然前一种方法更利于产生更高质量的数据,但高强度的人工注释过程限制了可创建的数据量。另一方面,虽然自动提取方法可以产生更大的数据集,但却需要通过启发式算法以及仔细过滤来确保数据质量,或者扩展模型来保证强大性能。现有数据集的另一个缺点是极少涉及非英语语言。这不禁让我们产生疑问:我们能否突破这些限制,创建包含各种内容的高质量、大规模、多语言数据集?

图像和文本之间的关系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

确保数据质量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

对此,我们推出了基于维基百科的图像文本 (WIT) 数据集。这是一个大型多模式数据集,通过从维基百科文章和 Wikimedia 图像链接中提取与图像相关的多种不同文本选择集创建而成。在创建过程中会执行严格的过滤环节,以便仅保留高质量的图像文本集。

基于维基百科的图像文本 (WIT) 数据集

https://github.com/google-research-datasets/wit

如我们在 SIGIR 2021 上发布的“WIT:适用于多模式、多语言机器学习的基于维基百科的图像文本数据集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中详细说明的那样,该过程产生一个包含 3750 万个实体丰富的图像文本示例精选集,其中涵盖 1150 万张独特的图像,跨越 108 种语言。大家可凭知识共享许可下载并使用 WIT 数据集。此外,我们也很高兴地宣布,我们将与 Wikimedia Research 以及其他外部协作者携手在 Kaggle 举办 WIT 数据集的竞赛。

数据集 图像
数量
文本 上下文
文本
语言数量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(仅限测试)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往数据集,WIT 的语言更多,规模更大

WIT 数据集的独特优势包括:

1. 大规模:WIT 是公开提供的最大的图像文本示例多模式数据集。

2.多语言:WIT 拥有 108 种语言,是其他数据集的十倍或以上。

3.上下文信息:与典型的多模式数据集(每个图像只有一个文字说明)不同,WIT 包含许多页面级和部分级上下文信息。

4.现实世界实体:维基百科是一个覆盖广泛的知识库,其丰富的现实世界实体可以在 WIT 中得以体现。

5.具有挑战性的测试集:在我们最近获得 EMNLP 接受的研究中,所有最先进的模型在 WIT 上表现出的性能都明显低于传统评估集,例如平均召回率 (recall)下降约 30 点。

最近获得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

数据集的创建过程

WIT 的主要目标是在不牺牲质量和概念覆盖面的情况下创建大型数据集。因此,我们选择利用当今最大的在线百科全书:维基百科。

就可用信息的深度而言,我们以维基百科上的“Half Dome”(加州约塞米蒂国家公园)页面为例如下所示,文章为图像提供了许多有趣的文本说明和相关的上下文信息,如页面标题、主要页面描述以及其他上下文信息和元数据。

我们首先选择包含图像的维基百科页面,然后提取各种图像文本关联内容和周围的上下文。为进一步优化数据,我们执行严格的过滤环节来确保数据质量。过滤过程包含:

基于文本的过滤,以确保文字说明的可用性、长度和质量(例如通过删除通用默认填充文本);

基于图像的过滤,以确保每个图像都具有特定的大小且拥有允许的许可;

基于图像和文本实体的过滤,以确保适合研究(例如排除仇恨类言论)。

接着我们进一步对图像文字说明集随机抽样,由真人进行校对评估,他们中绝大多数人都认可一个结论:98% 样本其图像与文字说明一致。

高度语言多样性

WIT 拥有 108 种语言的数据,是首个大规模、多语言、多模式数据集。

图像文本集数量 独特语言
数量
图像数量 独特语言
数量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨语言覆盖统计信息

首个上下文图像文字数据集

大多数多模式数据集仅为给定图像提供单个文本说明(或类似文字说明的多个版本)。WIT 是首个提供上下文信息的数据集, 可以帮助研究人员就上下文对图像文字说明以及图像选择的影响进行建模。

具体而言,可能有助于研究的 WIT 关键文本字段包括:

文本说明:WIT 提供三种不同的图像文字说明,包括(可能受上下文影响的)“参考描述”、(可能不受上下文影响的)“属性描述”,以及“替代文本描述”。

上下文信息:包括页面标题、页面描述、网址和有关维基百科部分的局部上下文(包括部分标题和文本)。

如下所示,WIT 在以下不同字段具有广泛的覆盖。

WIT 图像
文字字段
训练 Val 测试 合计/独特
行/元组 37.1M 261.8K 210.7K 37.6M
独特的图像 11.4M 58K 57K 11.5M
参考描述 16.9M 150K 104K 17.2M/16.7M
属性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的关键字段兼有文本说明和上下文信息

高质量训练集与

具有挑战性的评估基准

维基百科广泛覆盖各种概念,这意味着 WIT 评估集作为评估基准非常具有挑战性,即使对于最先进的模型而言也是如此。在图像文本检索方面,我们发现传统数据集的平均召回分数 (mean recall scores)为 80 秒,而对于 WIT 测试集而言,资源丰富的语言为 40 秒,资源不足的语言为 30 秒。我们希望这可以转而帮助研究人员构建更强大、更稳健的模型。

WIT 数据集与 Wikimedia 和

Kaggle 携手开展竞赛

此外,非常高兴地宣布,我们将携手 Wikimedia Research 以及一些外部协作者共同组织 WIT 测试集的竞赛。竞赛将在 Kaggle 举办,竞赛任务为图像文本检索。我们将给定一组图像和文本说明,而参赛者的任务是为每个图像检索适当的文字说明。

为促进该领域的研究,维基百科为大部分训练和测试数据集提供了 300 像素分辨率的图像和基于 Resnet-50 的图像嵌入向量。除 WIT 数据集以外,Kaggle 还将托管所有图像数据,并提供 Colab notebooks。此外,参赛者届时可访问 Kaggle 论坛,以便分享代码和开展协作。任何对多模态感兴趣的人都可以借此轻松开始并运行实验。我们很高兴并且期待各位参赛者可以在 Kaggle 平台,通过 WIT 数据集和维基百科图像为我们带来精彩表现。

结论

我们相信 WIT 数据集将帮助研究人员构建更好的多模态多语言模型,并识别更好的学习和表征技术,最终借助视觉语言数据在现实世界任务中优化机器学习模型。如有任何问题,请联系 wit-dataset@google.com。我们非常愿意倾听您如何使用 WIT 数据集。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93962
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51708
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136227

原文标题:基于维基百科的图像文本数据集 (WIT)

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广电计量创新服务体系助力商业航天高质量发展

    近日,国家航天局正式印发《推进商业航天高质量安全发展行动计划(2025—2027年)》(以下简称《行动计划》),明确将商业航天纳入国家航天发展总体布局,提出到2027年实现产业规模显著壮大、创新活力
    的头像 发表于 11-27 17:22 892次阅读

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言在自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模高质量的感知数据。目前业界常用的数据
    的头像 发表于 11-07 17:35 5118次阅读
    SimData:基于aiSim的高保真虚拟<b class='flag-5'>数据</b><b class='flag-5'>集</b>生成方案

    阿里巴巴国际站关键字搜索 API 实战:3 步搞定多语言适配 + 限流破局,询盘量提升 40%

    跨境电商API开发常陷合规、多语言、限流等坑。本文详解从国际合规(GDPR/CCPA)到参数优化、数据结构化及区域化搜索的全链路方案,附Python代码模板与缓存重试架构,助力提升调用成功率至99%+,精准询盘增长42%。
    的头像 发表于 10-20 14:44 821次阅读

    速卖通全球运营利器:商品详情接口多语言 + 合规 + 物流适配技术全解析

    速卖通全球化适配是跨境成功关键!本文详解2025最新接口方案,涵盖多语言智能翻译、合规自动校验、物流精准推荐与性能优化四大模块,助力商家提升转化率30%+,降低风险,提效80%。附实操代码与新手三步走策略,适合所有想出海的卖家。
    的头像 发表于 10-16 09:30 320次阅读
    速卖通全球运营利器:商品详情接口<b class='flag-5'>多语言</b> + 合规 + 物流适配技术全解析

    标贝科技参编《人工智能高质量数据建设指南》

    在人工智能迈入“数据驱动”的关键发展阶段,高质量数据已成为突破技术瓶颈、推动产业落地的核心引擎。日前,中国信息通信研究院人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展
    的头像 发表于 09-11 17:19 678次阅读

    易华录入选国家首批高质量数据建设先行先试工作名单

    8月28日下午,在2025中国国际大数据产业博览会上,国家数据局发布了首批高质量数据建设先行先试工作名单。经中国电科推荐、国家数据局评审,
    的头像 发表于 09-04 09:04 791次阅读

    索尼重载设备的高质量远程制作方案和应用(2)

    索尼的远程制作可以被称之为制作级的高质量远程制作,或重载设备的高质量远程制作,远程设备结合常规系统设备,提供和本地制作类似的制作级高质量图像,延续电视台/制作公司的设备特点和优势。
    的头像 发表于 08-21 15:56 873次阅读
    索尼重载设备的<b class='flag-5'>高质量</b>远程制作方案和应用(2)

    索尼重载设备的高质量远程制作方案和应用(1)

    最近的各地体育活动中,索尼提供了多种产品和系统方案进行测试和使用,其中将摄像机用于转播场地的集中式远程制作方式是常用方式。索尼专业解决方案突出制作级质量的优势,具有图像高质量,低码率,低延时特点,能提供不一样的高质量远程制作。
    的头像 发表于 08-21 15:55 720次阅读
    索尼重载设备的<b class='flag-5'>高质量</b>远程制作方案和应用(1)

    大模型时代,如何推进高质量数据建设?

    高质量数据,即具备高价值、高密度、标准化特征的数据集合。 在AI领域,高质量数据地位举足轻重,如同原油经炼化成为汽油驱动汽车,海量原始
    的头像 发表于 08-21 13:58 523次阅读

    从芯片到主板,科技创新实现高质量发展

    数字化时代,科技的迅猛发展深刻影响着各个领域。从芯片到主板的集成,生动展现了科技创新如何成为推动高质量发展的核心动力。
    的头像 发表于 07-26 16:26 648次阅读

    新能源变革之路,要建在“高质量”的路基上

    高质量”是能源革命的前提与基座
    的头像 发表于 06-24 11:42 2252次阅读
    新能源变革之路,要建在“<b class='flag-5'>高质量</b>”的路基上

    浅析:数字经济时代,高质量数据对AI产业带来哪些新的变化

    大模型技术不断取得突破,其中大规模高质量训练数据的投入,起到了关键作用,也进一步将 “以数据为中心的人工智能” 推向一个新阶段。从早期简单的图像识别、语音识别,到如今复杂的自然
    的头像 发表于 05-09 15:10 729次阅读

    高质量 HarmonyOS 权限管控流程

    高质量 HarmonyOS 权限管控流程 在 HarmonyOS 应用开发过程中,往往会涉及到 敏感数据 和 硬件资源 的调动和访问,而这部分的调用就会涉及到管控这部分的知识和内容了。我们需要对它有
    的头像 发表于 04-02 18:29 1749次阅读
    <b class='flag-5'>高质量</b> HarmonyOS 权限管控流程

    广汽集团召开高质量发展大会

    春回大地,万象更新。近两日广东省、广州市聚焦“建设现代化产业体系”主题,相继召开“新春第一会”——高质量发展大会,吹响奋进号角。广汽集团党委书记、董事长冯兴亚作为省市重点产业高质量发展代表参加会议,与产学研各界代表共聚一堂,共绘广东、广州
    的头像 发表于 02-07 10:18 1013次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质量的图像,您可
    的头像 发表于 01-03 10:38 1333次阅读
    借助谷歌Gemini和Imagen模型生成<b class='flag-5'>高质量</b>图像