0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据

智能感知与物联网技术研究所 来源:未知 2023-06-18 21:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

aff2221c-0ddb-11ee-962d-dac502259ad0.png  背景

机器学习领域中,学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来,视觉 Transformer 作为一种强大的模型,在多个视觉任务上展现出令人满意的效果。然而,视觉 Transformer 处理长尾分布数据的能力和特性,还有待进一步挖掘。

目前,已有的长尾识别模型很少直接利用长尾数据对视觉 Transformer(ViT)进行训练。基于现成的预训练权重进行研究可能会导致不公平的比较结果,因此有必要对视觉 Transformer 在长尾数据下的表现进行系统性的分析和总结。

b004ada6-0ddb-11ee-962d-dac502259ad0.png

论文链接:

https://arxiv.org/abs/2212.02015

代码链接:

https://github.com/XuZhengzhuo/LiVT 本文旨在填补这一研究空白,详细探讨了视觉 Transformer 在处理长尾数据时的优势和不足之处。本文将重点关注如何有效利用长尾数据来提升视觉 Transformer 的性能,并探索解决数据不平衡问题的新方法。通过本文的研究和总结,研究团队有望为进一步改进视觉 Transformer 模型在长尾数据任务中的表现提供有益的指导和启示。这将为解决现实世界中存在的数据不平衡问题提供新的思路和解决方案。 文章通过一系列实验发现,在有监督范式下,视觉 Transformer 在处理不平衡数据时会出现严重的性能衰退,而使用平衡分布的标注数据训练出的视觉 Transformer 呈现出明显的性能优势。相比于卷积网络,这一特点在视觉 Transformer 上体现的更为明显。另一方面,无监督的预训练方法无需标签分布,因此在相同的训练数据量下,视觉 Transformer 可以展现出类似的特征提取和重建能力。 基于以上观察和发现,研究提出了一种新的学习不平衡数据的范式,旨在让视觉 Transformer 模型更好地适应长尾数据。通过这种范式的引入,研究团队希望能够充分利用长尾数据的信息,提高视觉 Transformer 模型在处理不平衡标注数据时的性能和泛化能力。 b0232678-0ddb-11ee-962d-dac502259ad0.png  文章贡献 本文是第一个系统性的研究用长尾数据训练视觉 Transformer 的工作,在此过程中,做出了以下主要贡献: 首先,本文深入分析了传统有监督训练方式对视觉 Transformer 学习不均衡数据的限制因素,并基于此提出了双阶段训练流程,将视觉 Transformer 模型内在的归纳偏置和标签分布的统计偏置分阶段学习,以降低学习长尾数据的难度。其中第一阶段采用了流行的掩码重建预训练,第二阶段采用了平衡的损失进行微调监督。 b035076c-0ddb-11ee-962d-dac502259ad0.png    其次,本文提出了平衡的二进制交叉熵损失函数,并给出了严格的理论推导。平衡的二进制交叉熵损失的形式如下: b0498976-0ddb-11ee-962d-dac502259ad0.png    与之前的平衡交叉熵损失相比,本文的损失函数在视觉 Transformer 模型上展现出更好的性能,并且具有更快的收敛速度。研究中的理论推导为损失函数的合理性提供了严密的解释,进一步加强了我们方法的可靠性和有效性。 b06900a8-0ddb-11ee-962d-dac502259ad0.png▲不同损失函数的收敛速度的比较 基于以上贡献,文章提出了一个全新的学习范式 LiVT,充分发挥视觉 Transformer 模型在长尾数据上的学习能力,显著提升模型在多个数据集上的性能。该方案在多个数据集上取得了远好于视觉 Transformer 基线的性能表现。 b0827376-0ddb-11ee-962d-dac502259ad0.png▲不同参数量下在ImageNet-LT上的准确性

b09d72de-0ddb-11ee-962d-dac502259ad0.png▲在ImagNet-LT(左)和iNaturalist18(右)数据集上的性能表现

同时,本文还验证了在相同的训练数据规模的情况下,使用ImageNet的长尾分布子集(LT)和平衡分布子集(BAL)训练的 ViT-B 模型展现出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 数据集中,可以通过更大的模型和 MGP epoch 获得更好的重建结果。 wKgZomTYg3CAQbicAARAkEpPjg4567.png    b1201f86-0ddb-11ee-962d-dac502259ad0.png  

总结

本文提供了一种新的基于视觉 Transformer 处理不平衡数据的方法 LiVT。LiVT 利用掩码建模和平衡微调两个阶段的训练策略,使得视觉 Transformer 能够更好地适应长尾数据分布并学习到更通用的特征表示。该方法不仅在实验中取得了显著的性能提升,而且无需额外的数据,具有实际应用的可行性。 论文的更多细节请参考论文原文和补充材料。


原文标题:CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47317

    浏览量

    407815

原文标题:CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    时识科技DAVIS346传感器助力清华大学突破LIBS技术瓶颈

    近日,清华大学深圳国际研究生院王希林教授团队创新性地引入时识科技(SynSense)的类脑动态视觉传感器DAVIS346,首次将动态视觉传感器(DVS)技术应用于激光诱导等离子体光学信号的捕获,并以
    的头像 发表于 11-30 11:42 591次阅读

    爱芯元智出席第四届清华大学汽车芯片设计及产业应用研讨会

    近日,第四届清华大学汽车芯片设计及产业应用研讨会暨校友论坛在苏州市吴江区举行。作为清华大学自动化系校友,爱芯元智创始人兼董事长仇肖莘博士应邀发表主旨演讲,深入剖析了高智价比AI芯片推动智能汽车普惠发展的实施路径。
    的头像 发表于 11-02 09:18 299次阅读

    清华大学TOP EE+项目参访美光上海

    此前,2025年6月4日至6日,清华大学TOP EE+ 项目于美光上海的参访活动圆满举行。为期三天的活动汇聚了来自清华大学电子工程系的优秀留学生与美光的多位管理者和工程师,展开了深入的技术交流与文化互动之旅。
    的头像 发表于 07-07 18:02 1254次阅读

    清华大学到镓未来科技,张大江先生在半导体功率器件十八年的坚守!

    清华大学到镓未来科技,张大江先生在半导体功率器件十八年的坚守!近年来,珠海市镓未来科技有限公司(以下简称“镓未来”)在第三代半导体行业异军突起,凭借领先的氮化镓(GaN)技术储备和不断推出的新产品
    发表于 05-19 10:16

    清华大学携手华为打造业内首个园区网络智能体

    清华大学响应国家教育新基建战略,正在加速推进网络管理平台升级:为满足在线教育、协同创新及智慧校园的发展需求,为清华大学跻身世界一流大学创造基础条件,清华大学携手华为打造业内首个园区网络
    的头像 发表于 05-07 09:51 642次阅读

    2025年开放原子校源行清华大学站成功举办

    近日,由开放原子开源基金会、清华大学计算机科学与技术系、清华大学软件学院主办的开放原子“校源行”(清华站)在清华大学成功举办。
    的头像 发表于 04-22 16:46 757次阅读

    奇瑞汽车携手清华大学发布“分体式飞行汽车”专利

    继2024年10月在奇瑞全球创新大会上宣布三体复合翼飞行汽车成功完成首航后,奇瑞再次带来飞行汽车领域的最新进展。日前,由奇瑞汽车股份有限公司与清华大学智能交通实验室共同申请的“分体式飞行汽车”专利正式公开,该专利正是基于奇瑞汽车股份公司与清华大学智能交通实验室合作的项目。
    的头像 发表于 02-20 09:14 802次阅读

    清华大学鲲鹏昇腾科教创新卓越中心专项合作启动,引领高校科研和人才培养新模式

    2月13日,清华大学与华为技术有限公司在清华大学自强科技楼签署合作协议,宣布“清华大学鲲鹏昇腾科教创新卓越中心专项合作”(以下简称“卓越中心”)正式启动。清华大学副校长曾嵘,中国工程院
    的头像 发表于 02-18 16:46 873次阅读

    清华大学与华为启动“卓越中心”专项合作

    近日,清华大学与华为技术有限公司在清华大学自强科技楼正式签署合作协议,共同宣布“清华大学鲲鹏昇腾科教创新卓越中心专项合作”(简称“卓越中心”)正式启动。 出席签约仪式的有清华大学副校长
    的头像 发表于 02-18 14:11 1061次阅读

    清华大学发布:DeepSeek从入门到精通

    《DeepSeek:从入门到精通》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心撰写的一份专业文档。该文档篇幅长达104页,文档的核心内容围绕DeepSeek的技术
    的头像 发表于 02-14 09:49 1.2w次阅读
    <b class='flag-5'>清华大学</b>发布:DeepSeek从入门到精通

    清华大学自动化系学子走进华砺智行研学交流

    近日,清华大学自动化系的11名学子走进华砺智行研学交流,开展科技前沿探索的社会实践活动。
    的头像 发表于 02-13 10:03 696次阅读

    清华大学DeepSeek指南:从入门到精通

    本资料由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室余梦珑博士后团队出品,细致讲述了DeepSeek的应用技巧。                    
    的头像 发表于 02-11 09:16 1.4w次阅读
    <b class='flag-5'>清华大学</b>DeepSeek指南:从入门到精通

    清华大学未央书院一行到访光峰科技参观交流

    近日,清华大学未央书院“机动万里”实践支队到访光峰科技进行参观交流,期间与光峰研究院的研发成员就激光光学应用的创新与发展,进行交流互动。
    的头像 发表于 01-16 10:41 792次阅读

    美光科技一行走进清华大学电子工程系

    2024年底,美光课堂已连续五年为大学生授课,已有超过600名来自北京大学清华大学、上海交通大学和西安交通大学的学子参与其中。
    的头像 发表于 01-09 15:31 956次阅读

    清华大学师生到访智行者科技交流学习

    近日,清华大学 “技术创新原理与实践” 研究生课程师生一行到访智行者进行交流学习。作为课程实践环节的重要一站,此次来访开启了一场深度的参观学习之旅。智行者董事长&CEO张德兆先生作为清华
    的头像 发表于 12-23 11:39 1006次阅读