0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Transformer架构的文档图像自监督预训练技术

CVer 来源:CSIG文档图像分析与识别专 作者:CSIG文档图像分析与 2022-11-15 11:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文简要介绍ACM MM 2022录用论文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。该论文是2022年微软亚研院发表的LayoutLM V3[2]的前身工作,主要解决了文档领域中标注数据稀少和以视觉为中心的文档智能任务骨干网络的预训练问题。

一、研究背景

近年来自监督预训练技术已在文档智能领域进行了许多的实践,大多数技术是将图片、文本、布局结构信息一起输入统一的Transformer架构中。在这些技术中,经典的流程是先经过一个视觉模型提取额外文档图片信息,例如OCR引擎或版面分析模型,这些模型通常依赖于有标注数据训练的视觉骨干网络。已有的工作已经证明一些视觉模型在实际应用中的性能经常受到域迁移、数据分布不一致等问题的影响。而且现有的文档有标注数据集稀少、样式单一,训练出来的骨干网络并非最适用于文档任务。因此,有必要研究如何利用自监督预训练技术训练一个专用于文档智能领域的骨干网络。本文针对上述问题,利用离散变分编码器和NLP领域的常用预训练方式实现了文档图像的预训练。

5053a420-62a5-11ed-8abf-dac502259ad0.png

图1具有不同布局和格式的视觉丰富的业务文档,用于预培训DiT

二、DiT原理简述

2.1总体结构

5088a166-62a5-11ed-8abf-dac502259ad0.png

图2 DiT的总体架构

Fig 2是DiT的整体结构。DiT使用ViT[3]作为预训练的骨干网络,模型的输入是图像Patch化后的Embedding特征向量,Patch的数量和离散变分编码器的下采样比例有关。输入经过ViT后输出到线性层进行图像分类,分类层的大小是8192。预训练任务和NLP领域的完型填空任务一致,先对输入的Patch随机掩膜,在模型输出处预测被遮盖的Patch对应的Token,Token由Fig 2 中左侧的离散变分编码器生成,作为每个Patch的Label,预训练过程使用CE Loss监督。

2.2 离散变分编码器dVAE

离散变分编码器作为Image Tokenizer,将输入的Patch Token化,来源于论文DALL-E[4],在预训练任务开始前需要额外训练。本文使用数据集IIT-CDIP[5]重新训练了DALL-E中的离散变分编码器以适用于文档任务。在预训练任务中只使用到编码器的部分,解码器不参与预训练,编码器将输入图片下采样到原来的1/8,例如输入尺度为112*112,那编码后的Token Map为14*14,此时的Map大小,应与ViT输入Patch数保持一致。

2.3 模型微调

50e1f356-62a5-11ed-8abf-dac502259ad0.png

图3在不同检测框架中应用DiT作为骨干网络的图示

模型预训练完成后,需针对下游任务进行微小的结构改动,针对分类任务,输入经过平均池化和线性层进行分类。针对检测任务,如Fig 3所示,在ViT的特定层进行下采样或上采样,然后输入到FPN和后续的检测框架中。

三、主要实验结果及可视化效果

表1.RVL-CDIP上的文档图像分类精度(%),其中所有模型都使用224×224分辨率的纯图像信息(无文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet验证集上的文档布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d缩短为ResNext,级联为C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表检测精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本检测精度(IoU@0.5)在FUNSD任务#1中,掩码R-CNN与不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用。“+syn”表示使用包含1M文档图像的合成数据集训练DiT,然后使用FUNSD训练数据进行微调。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

图4使用不同标记器进行图像重建

从左到右:原始文档图像,使用自训练dVAE标记器进行图像重建,使用DALL-E标记器进行的图像重建从表1、表2、表3、表4

来看,文章所提方法在各种下游任务中取得了state-of-the-art的结果,验证了该方法在文档领域的有效性。Fig 4中展示了重新训练的离散变分编码器的可视化输出,结果显示本文中的离散变分编码器效果更好。

四、总结及讨论

本文设计了一个利用大量无标签文档图像预训练ViT的自监督方法,该方法的核心是利用离散变分编码器对图像Patch进行Token化,再使用NLP领域的掩码重建任务进行预训练。从实验结果可以看出,该方法在多个下游任务的有效性,探索了自监督任务在文档领域的可能性。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3903

    浏览量

    141429
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93965

原文标题:上交&微软提出DiT:一种基于Transformer的文档图像自监督预训练方法 | ACM MM 2022

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    %,使用的参数减少了15%。 3.2 LighrSeq2 LighrSeq2 提出了三种加速Transformer模型训练技术。 ①针对所有的Transformer模型,LightS
    发表于 09-12 17:30

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 776次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA模型H-RDT

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力
    发表于 07-20 15:07

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 821次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 947次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>概述

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    亿个参数的混合专家模型(MoE) ,每个token(模型处理文本的基本单位)激活 370 亿个参数。该模型在 14.8 万亿个高质量 token上进行训练,采用 MLA 和 MoE 架构
    发表于 06-09 14:38

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    作者:算力魔方创始人/英特尔创新大使刘力 《用PaddleNLP在4060单卡上实践大模型训练技术》发布后收到读者热烈反响,很多读者要求进一步讲解更多的技术细节。本文主要针对大语言模
    的头像 发表于 03-21 18:24 3815次阅读
    用PaddleNLP为GPT-2模型制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识库

    应用。第六章深入探讨了RAG架构的工作原理,该技术通过在推理过程中实时检索和注入外部知识来增强模型的生成能力。RAG架构的核心是检索器和生成器两大模块,检索器负责从知识库中找到与当前查询相关的
    发表于 03-07 19:49

    从Open Model Zoo下载的FastSeg大型公共训练模型,无法导入名称是怎么回事?

    从 Open Model Zoo 下载的 FastSeg 大型公共训练模型。 运行 converter.py 以将 FastSeg 大型模型转换为中间表示 (IR): python3
    发表于 03-05 07:22

    LPDDR4 16Gb 技术文档详解:SK hynix H9HCNNNBKUMLXR 规格书

    部分,文档深入讲解了芯片的内部结构和工作原理,包括其双通道架构、命令/地址接口、数据输入输出接口等。特别强调了芯片的低功耗特性,如自动刷新、刷新、温度补偿刷新等功能,以及如何通过模
    发表于 03-03 14:07

    用PaddleNLP在4060单卡上实践大模型训练技术

    作者:算力魔方创始人/英特尔创新大使刘力 之前我们分享了《从零开始训练一个大语言模型需要投资多少钱》,其中高昂的训练费用让许多对大模型训练
    的头像 发表于 02-19 16:10 2128次阅读
    用PaddleNLP在4060单卡上实践大模型<b class='flag-5'>预</b><b class='flag-5'>训练</b><b class='flag-5'>技术</b>

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译。Transformer 通过引入注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“注意力是所需的一切”。
    的头像 发表于 02-06 10:21 5720次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    transformer专用ASIC芯片Sohu说明

    的旧图像模型,也不能运行CNN、RNN或LSTM。 但对于transformer来说,Sohu是有史以来最快的芯片。 借助Llama 70B每秒超过50万个token的吞吐量,Sohu可以让您构建在GPU上无法实现的产品
    的头像 发表于 01-06 09:13 1673次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    KerasHub统一、全面的训练模型库

    深度学习领域正在迅速发展,在处理各种类型的任务中,训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这一动向的前沿。Keras 拥有专用的内容库,如用
    的头像 发表于 12-20 10:32 771次阅读

    如何使用FP8新技术加速大模型训练

    利用 FP8 技术加速 LLM 推理和训练越来越受到关注,本文主要和大家介绍如何使用 FP8 这项新技术加速大模型的训练。 使用 FP8 进行大模型
    的头像 发表于 12-09 11:30 2073次阅读