0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何创建高质量、大规模、多语言的数据集

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-29 10:22 次阅读

多模式视觉语言模型依赖大量数据集来对图像和文本之间的关系进行建模。一般来说,这些数据集有两种创建方法:手动为图像添加文字说明,或抓取网页并提取替代文本 (alt-text)作为文字说明。虽然前一种方法更利于产生更高质量的数据,但高强度的人工注释过程限制了可创建的数据量。另一方面,虽然自动提取方法可以产生更大的数据集,但却需要通过启发式算法以及仔细过滤来确保数据质量,或者扩展模型来保证强大性能。现有数据集的另一个缺点是极少涉及非英语语言。这不禁让我们产生疑问:我们能否突破这些限制,创建包含各种内容的高质量、大规模、多语言数据集?

图像和文本之间的关系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

确保数据质量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

对此,我们推出了基于维基百科的图像文本 (WIT) 数据集。这是一个大型多模式数据集,通过从维基百科文章和 Wikimedia 图像链接中提取与图像相关的多种不同文本选择集创建而成。在创建过程中会执行严格的过滤环节,以便仅保留高质量的图像文本集。

基于维基百科的图像文本 (WIT) 数据集

https://github.com/google-research-datasets/wit

如我们在 SIGIR 2021 上发布的“WIT:适用于多模式、多语言机器学习的基于维基百科的图像文本数据集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中详细说明的那样,该过程产生一个包含 3750 万个实体丰富的图像文本示例精选集,其中涵盖 1150 万张独特的图像,跨越 108 种语言。大家可凭知识共享许可下载并使用 WIT 数据集。此外,我们也很高兴地宣布,我们将与 Wikimedia Research 以及其他外部协作者携手在 Kaggle 举办 WIT 数据集的竞赛。

数据集 图像
数量
文本 上下文
文本
语言数量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(仅限测试)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往数据集,WIT 的语言更多,规模更大

WIT 数据集的独特优势包括:

1. 大规模:WIT 是公开提供的最大的图像文本示例多模式数据集。

2.多语言:WIT 拥有 108 种语言,是其他数据集的十倍或以上。

3.上下文信息:与典型的多模式数据集(每个图像只有一个文字说明)不同,WIT 包含许多页面级和部分级上下文信息。

4.现实世界实体:维基百科是一个覆盖广泛的知识库,其丰富的现实世界实体可以在 WIT 中得以体现。

5.具有挑战性的测试集:在我们最近获得 EMNLP 接受的研究中,所有最先进的模型在 WIT 上表现出的性能都明显低于传统评估集,例如平均召回率 (recall)下降约 30 点。

最近获得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

数据集的创建过程

WIT 的主要目标是在不牺牲质量和概念覆盖面的情况下创建大型数据集。因此,我们选择利用当今最大的在线百科全书:维基百科。

就可用信息的深度而言,我们以维基百科上的“Half Dome”(加州约塞米蒂国家公园)页面为例如下所示,文章为图像提供了许多有趣的文本说明和相关的上下文信息,如页面标题、主要页面描述以及其他上下文信息和元数据。

我们首先选择包含图像的维基百科页面,然后提取各种图像文本关联内容和周围的上下文。为进一步优化数据,我们执行严格的过滤环节来确保数据质量。过滤过程包含:

基于文本的过滤,以确保文字说明的可用性、长度和质量(例如通过删除通用默认填充文本);

基于图像的过滤,以确保每个图像都具有特定的大小且拥有允许的许可;

基于图像和文本实体的过滤,以确保适合研究(例如排除仇恨类言论)。

接着我们进一步对图像文字说明集随机抽样,由真人进行校对评估,他们中绝大多数人都认可一个结论:98% 样本其图像与文字说明一致。

高度语言多样性

WIT 拥有 108 种语言的数据,是首个大规模、多语言、多模式数据集。

图像文本集数量 独特语言
数量
图像数量 独特语言
数量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨语言覆盖统计信息

首个上下文图像文字数据集

大多数多模式数据集仅为给定图像提供单个文本说明(或类似文字说明的多个版本)。WIT 是首个提供上下文信息的数据集, 可以帮助研究人员就上下文对图像文字说明以及图像选择的影响进行建模。

具体而言,可能有助于研究的 WIT 关键文本字段包括:

文本说明:WIT 提供三种不同的图像文字说明,包括(可能受上下文影响的)“参考描述”、(可能不受上下文影响的)“属性描述”,以及“替代文本描述”。

上下文信息:包括页面标题、页面描述、网址和有关维基百科部分的局部上下文(包括部分标题和文本)。

如下所示,WIT 在以下不同字段具有广泛的覆盖。

WIT 图像
文字字段
训练 Val 测试 合计/独特
行/元组 37.1M 261.8K 210.7K 37.6M
独特的图像 11.4M 58K 57K 11.5M
参考描述 16.9M 150K 104K 17.2M/16.7M
属性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的关键字段兼有文本说明和上下文信息

高质量训练集与

具有挑战性的评估基准

维基百科广泛覆盖各种概念,这意味着 WIT 评估集作为评估基准非常具有挑战性,即使对于最先进的模型而言也是如此。在图像文本检索方面,我们发现传统数据集的平均召回分数 (mean recall scores)为 80 秒,而对于 WIT 测试集而言,资源丰富的语言为 40 秒,资源不足的语言为 30 秒。我们希望这可以转而帮助研究人员构建更强大、更稳健的模型。

WIT 数据集与 Wikimedia 和

Kaggle 携手开展竞赛

此外,非常高兴地宣布,我们将携手 Wikimedia Research 以及一些外部协作者共同组织 WIT 测试集的竞赛。竞赛将在 Kaggle 举办,竞赛任务为图像文本检索。我们将给定一组图像和文本说明,而参赛者的任务是为每个图像检索适当的文字说明。

为促进该领域的研究,维基百科为大部分训练和测试数据集提供了 300 像素分辨率的图像和基于 Resnet-50 的图像嵌入向量。除 WIT 数据集以外,Kaggle 还将托管所有图像数据,并提供 Colab notebooks。此外,参赛者届时可访问 Kaggle 论坛,以便分享代码和开展协作。任何对多模态感兴趣的人都可以借此轻松开始并运行实验。我们很高兴并且期待各位参赛者可以在 Kaggle 平台,通过 WIT 数据集和维基百科图像为我们带来精彩表现。

结论

我们相信 WIT 数据集将帮助研究人员构建更好的多模态多语言模型,并识别更好的学习和表征技术,最终借助视觉语言数据在现实世界任务中优化机器学习模型。如有任何问题,请联系 wit-dataset@google.com。我们非常愿意倾听您如何使用 WIT 数据集。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6514

    浏览量

    87609
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47702
  • 机器学习
    +关注

    关注

    66

    文章

    8134

    浏览量

    130577

原文标题:基于维基百科的图像文本数据集 (WIT)

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    这个多语言包 怎么搜不到

    大家好,这个多语言包怎么搜不到 seven language lib 谁有离线包不 感谢分享,
    发表于 03-24 10:06

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    的训练。这一阶段的难点在于如何构建训练数据,以及如何高效地进行分布式训练。 有监督微调阶段利用少量高质量数据,其中包含用户输入的提示词和对应的理想输出结果。提示词可以是问题、闲聊对
    发表于 03-11 15:16

    语言模型(LLMs)如何处理多语言输入问题

    研究者们提出了一个框架来描述LLMs在处理多语言输入时的内部处理过程,并探讨了模型中是否存在特定于语言的神经元。
    发表于 03-07 14:44 149次阅读
    大<b class='flag-5'>语言</b>模型(LLMs)如何处理<b class='flag-5'>多语言</b>输入问题

    商汤科技与库醇科技达成合作 为垂域大模型构建高质量大规模的领域微调数据

    数字化转型,为垂域大模型构建高质量大规模的领域微调数据。   本次合作将基于商汤通用大模型进行二次开发,给模型注入领域知识, 训练一个专门根据葡萄酒爱好者问题生成关键词的大模型 。     商汤科技副总裁张果琲(右四)、库醇科技CEO郭俊
    的头像 发表于 01-10 09:46 481次阅读
    商汤科技与库醇科技达成合作 为垂域大模型构建<b class='flag-5'>高质量大规模</b>的领域微调<b class='flag-5'>数据</b>

    多语言开发的流程详解

    现在不少应用都是要求有多语言切换的, 使用QT开发上位机也同样需要做多语言功能, 不过QT是自带了多语言翻译功能, 可以很方便的借助原生工具进行, 下面就简单来看看多语言开发的流程!
    的头像 发表于 11-30 09:08 392次阅读

    卓越领航!广和通获评“2023高质量发展领军企业”

    广和通要闻 11月28日,以“协同新发展、引领新示范”为主题的第四届高质量发展高峰论坛暨2023高质量发展领军企业、领军人物颁奖盛典顺利举办。大会揭晓了“2023高质量发展领军企业、领军人物”榜单
    的头像 发表于 11-29 18:00 252次阅读
    卓越领航!广和通获评“2023<b class='flag-5'>高质量</b>发展领军企业”

    如何在TSMaster面板和工具箱中实现多语言切换

    TSMaster软件平台已经提供了多语言的支持,对于软件内部用户二次开发的模块如Panel和工具箱模块,TSMaster也提供了多语言的支持。这一特性让基于TSMaster开发的工程只需要制作
    的头像 发表于 11-11 08:21 331次阅读
    如何在TSMaster面板和工具箱中实现<b class='flag-5'>多语言</b>切换

    基于LLaMA的多语言数学推理大模型

    MathOctopus在多语言数学推理任务中,表现出了强大的性能。MathOctopus-7B 可以将LLmMA2-7B在MGSM不同语言上的平均表现从22.6%提升到40.0%。更进一步,MathOctopus-13B也获得了比ChatGPT更好的性能。
    发表于 11-08 10:37 221次阅读
    基于LLaMA的<b class='flag-5'>多语言</b>数学推理大模型

    高质量C、C++编程指南

    林锐-高质量C、C++编程指南电子档
    发表于 10-07 07:14

    如何构建高质量的大语言模型数据

    构建高质量的大语言模型数据集是训练强大自然语言处理模型的关键一步。以下是一些关键步骤和考虑因素,有助于创建具有多样性、准确性和时效性的
    的头像 发表于 09-11 17:00 636次阅读

    蚂蚁集团开源高性能多语言序列化框架Fury解读

    Fury 是一个基于 JIT 动态编译和零拷贝的多语言序列化框架,支持 Java/Python/Golang/JavaScript/C++ 等语言,提供全自动的对象多语言 / 跨语言
    的头像 发表于 08-25 17:05 740次阅读
    蚂蚁集团开源高性能<b class='flag-5'>多语言</b>序列化框架Fury解读

    支持工业4.0工厂的大规模定制、高质量和可持续运营

    对于工业4.0自动化制造系统的设计人员来说,通过高质量和可持续的生产流程支持大规模定制可能具有挑战性。需要在各种有线和无线网络上部署和连接多个传感和控制设备,并且需要实时监控其状态和能耗,同时满足
    的头像 发表于 08-03 17:30 9250次阅读
    支持工业4.0工厂的<b class='flag-5'>大规模</b>定制、<b class='flag-5'>高质量</b>和可持续运营

    何为高质量的代码?如何写出高质量代码?

    懂得“数据结构与算法” 写出高效的代码,懂得“设计模式”写出高质量的代码。
    发表于 08-02 09:44 456次阅读
    何为<b class='flag-5'>高质量</b>的代码?如何写出<b class='flag-5'>高质量</b>代码?

    达观曹植大模型正式对外公测!专注于长文本、多语言、垂直化发展

    大模型时代到来,国内出现“百模大战”的局面。达观数据自23年3月宣布研发大语言模型以来,一直积极探索大语言模型的专业化、特长化和产品化。通过多年的高质量数据积累,不断精进算法创新,结合
    的头像 发表于 07-12 15:04 606次阅读
    达观曹植大模型正式对外公测!专注于长文本、<b class='flag-5'>多语言</b>、垂直化发展

    HarmonyOS低代码开发-多语言支持及屏幕适配

    多语言支持:低代码页面支持多语言能力,让应用开发者无需开发多个不同语言的版本。开发者可以通过定义资源文件和引用资源两个步骤以使用多语言能力。 1.在指定的i18n文件夹内
    发表于 05-23 14:37