背景
在机器学习领域中,学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来,视觉 Transformer 作为一种强大的模型,在多个视觉任务上展现出令人满意的效果。然而,视觉 Transformer 处理长尾分布数据的能力和特性,还有待进一步挖掘。
目前,已有的长尾识别模型很少直接利用长尾数据对视觉 Transformer(ViT)进行训练。基于现成的预训练权重进行研究可能会导致不公平的比较结果,因此有必要对视觉 Transformer 在长尾数据下的表现进行系统性的分析和总结。

论文链接:
https://arxiv.org/abs/2212.02015代码链接:
https://github.com/XuZhengzhuo/LiVT 本文旨在填补这一研究空白,详细探讨了视觉 Transformer 在处理长尾数据时的优势和不足之处。本文将重点关注如何有效利用长尾数据来提升视觉 Transformer 的性能,并探索解决数据不平衡问题的新方法。通过本文的研究和总结,研究团队有望为进一步改进视觉 Transformer 模型在长尾数据任务中的表现提供有益的指导和启示。这将为解决现实世界中存在的数据不平衡问题提供新的思路和解决方案。 文章通过一系列实验发现,在有监督范式下,视觉 Transformer 在处理不平衡数据时会出现严重的性能衰退,而使用平衡分布的标注数据训练出的视觉 Transformer 呈现出明显的性能优势。相比于卷积网络,这一特点在视觉 Transformer 上体现的更为明显。另一方面,无监督的预训练方法无需标签分布,因此在相同的训练数据量下,视觉 Transformer 可以展现出类似的特征提取和重建能力。 基于以上观察和发现,研究提出了一种新的学习不平衡数据的范式,旨在让视觉 Transformer 模型更好地适应长尾数据。通过这种范式的引入,研究团队希望能够充分利用长尾数据的信息,提高视觉 Transformer 模型在处理不平衡标注数据时的性能和泛化能力。
文章贡献
本文是第一个系统性的研究用长尾数据训练视觉 Transformer 的工作,在此过程中,做出了以下主要贡献:
首先,本文深入分析了传统有监督训练方式对视觉 Transformer 学习不均衡数据的限制因素,并基于此提出了双阶段训练流程,将视觉 Transformer 模型内在的归纳偏置和标签分布的统计偏置分阶段学习,以降低学习长尾数据的难度。其中第一阶段采用了流行的掩码重建预训练,第二阶段采用了平衡的损失进行微调监督。
其次,本文提出了平衡的二进制交叉熵损失函数,并给出了严格的理论推导。平衡的二进制交叉熵损失的形式如下:
与之前的平衡交叉熵损失相比,本文的损失函数在视觉 Transformer 模型上展现出更好的性能,并且具有更快的收敛速度。研究中的理论推导为损失函数的合理性提供了严密的解释,进一步加强了我们方法的可靠性和有效性。
▲不同损失函数的收敛速度的比较
基于以上贡献,文章提出了一个全新的学习范式 LiVT,充分发挥视觉 Transformer 模型在长尾数据上的学习能力,显著提升模型在多个数据集上的性能。该方案在多个数据集上取得了远好于视觉 Transformer 基线的性能表现。
▲不同参数量下在ImageNet-LT上的准确性
▲在ImagNet-LT(左)和iNaturalist18(右)数据集上的性能表现同时,本文还验证了在相同的训练数据规模的情况下,使用ImageNet的长尾分布子集(LT)和平衡分布子集(BAL)训练的 ViT-B 模型展现出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 数据集中,可以通过更大的模型和 MGP epoch 获得更好的重建结果。
总结
本文提供了一种新的基于视觉 Transformer 处理不平衡数据的方法 LiVT。LiVT 利用掩码建模和平衡微调两个阶段的训练策略,使得视觉 Transformer 能够更好地适应长尾数据分布并学习到更通用的特征表示。该方法不仅在实验中取得了显著的性能提升,而且无需额外的数据,具有实际应用的可行性。 论文的更多细节请参考论文原文和补充材料。
原文标题:CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据
文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
物联网
+关注
关注
2950文章
48110浏览量
418165
原文标题:CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据
文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
热点推荐
清华大学体育锻炼数字化案例:基于蓝牙物联网的学生运动健康管理
的“黑箱”问题:学校难以统计跑圈圈数、难以依据客观数据调整运动强度。通过部署桂花网蓝牙网关(M1500-XT与X2000),配合学生佩戴的蓝牙手环,清华大学构建了一套覆盖操场和室内场馆的运动监测网络,将
发表于 04-15 17:31
清华大学电子工程系到访天数智芯参观交流
近日,清华大学电子工程系、清华校友总会电子工程系分会、清华大学上海校友会电子信息专委会组织师生、校友代表到访天数智芯,开展深度校企交流活动,共话国产算力创新与产学研协同发展。
沐曦股份联合清华大学发布磁性材料AI原子基座模型
2月27日,沐曦股份联合清华大学等多家研究机构联合发布了磁性材料AI原子基座模型。该模型是首个覆盖宽温压域的磁性材料AI原子模型,经权威专家鉴定,整体技术水平达到国际领先。
清华大学“启·创”计划走进拓维信息,校企共探AI时代产学研合作新范式
1月13日,清华大学“启·创”计划第十三期赴湘社会实践活动暨TalkwebHouse创业私董会第二期在拓维信息圆满举办。清华大学创业团队20余名师生,与拓维信息团队深入对话,围绕“AI+”产业融合
沐曦与Arm、熠知一同到访清华大学交流座谈
为助力顶尖学府清华大学在“AI+教科研”领域取得新突破,培养具备AI创新能力的人才,1月12日,沐曦集成电路(上海)股份有限公司(股票代码:688802)、半导体头部企业Arm控股有限公司(纳斯达克
时识科技DAVIS346传感器助力清华大学突破LIBS技术瓶颈
近日,清华大学深圳国际研究生院王希林教授团队创新性地引入时识科技(SynSense)的类脑动态视觉传感器DAVIS346,首次将动态视觉传感器(DVS)技术应用于激光诱导等离子体光学信号的捕获,并以
普华基础软件走进清华大学研究生课堂
近日,普华基础软件走进清华大学车辆与运载学院,在《车辆控制工程》课堂上开展研究生专题授课和交流。本次授课聚焦智能驾驶汽车基础软件发展与关键技术,旨在搭建校企知识传递桥梁,为高校学子带来产业前沿视角,助力培养符合行业需求的复合型人才。
清华大学企业家协会一行到访立讯精密参观交流
11月14日上午,立讯精密CPBG事业群与技术委员会在昆山园区,热情接待了到访的清华大学企业家协会(TEEC)一行。此次交流,不仅是一次企业展示,更是一次思想碰撞与智慧交融的契机。
爱芯元智出席第四届清华大学汽车芯片设计及产业应用研讨会
近日,第四届清华大学汽车芯片设计及产业应用研讨会暨校友论坛在苏州市吴江区举行。作为清华大学自动化系校友,爱芯元智创始人兼董事长仇肖莘博士应邀发表主旨演讲,深入剖析了高智价比AI芯片推动智能汽车普惠发展的实施路径。
地平线H-RDT模型斩获CVPR 2025大赛冠军
近日,在计算机视觉与模式识别领域顶级会议CVPR 2025举办的RoboTwin双臂机器人竞赛中,地平线机器人实验室与清华大学计算机系朱军团队联合提出的H-RDT凭强大性能和领先成功率
清华大学五道口金融学院走进赛目科技
近日,聚焦自动驾驶未来路径的专题沙龙在中关村国际创新大厦成功举办。此次活动由清华大学五道口金融学院主办,北京赛目科技股份有限公司、北京海新域城市更新集团提供活动支持,为清华-康奈尔双学位金融MBA项目在读学生及校友、自动驾驶领域的顶尖专家、企业家们搭建了一个交流与碰撞的平
清华大学TOP EE+项目参访美光上海
此前,2025年6月4日至6日,清华大学TOP EE+ 项目于美光上海的参访活动圆满举行。为期三天的活动汇聚了来自清华大学电子工程系的优秀留学生与美光的多位管理者和工程师,展开了深入的技术交流与文化互动之旅。
从清华大学到镓未来科技,张大江先生在半导体功率器件十八年的坚守!
从清华大学到镓未来科技,张大江先生在半导体功率器件十八年的坚守!近年来,珠海市镓未来科技有限公司(以下简称“镓未来”)在第三代半导体行业异军突起,凭借领先的氮化镓(GaN)技术储备和不断推出的新产品
发表于 05-19 10:16
清华大学携手华为打造业内首个园区网络智能体
清华大学响应国家教育新基建战略,正在加速推进网络管理平台升级:为满足在线教育、协同创新及智慧校园的发展需求,为清华大学跻身世界一流大学创造基础条件,清华大学携手华为打造业内首个园区网络
2025年开放原子校源行清华大学站成功举办
近日,由开放原子开源基金会、清华大学计算机科学与技术系、清华大学软件学院主办的开放原子“校源行”(清华站)在清华大学成功举办。
CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据
评论