太长不看版,果然还是延续谷歌的风格,创新不够,实验来凑。
废话不多说,直接上图,一图胜千言:

FlexiViT
顾名思义,FlexiViT,翻译过来不就是灵活的 ViT 嘛?
Ooo,那怎么体现灵活?我们先回顾下 Vision Transformers 的工作流程。
一句话总结就是,ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到Transformer网络进行训练和推理的一种神经网络架构。
本文的重点便是在研究这些小块块对性能的最终影响。通常来说:
方块切的越小,精度会越高,但速度就变慢了;
方块切的越大,精度会降低,但速度就上来了;
So,我们究竟是要做大做强,还是做小做精致?不用急,来自谷歌大脑的研究人员为你揭晓答案:成年人才做选择,老子大小通吃。
正经点,让我们切回来,古哥通过燃烧了数不尽的卡路里向我们证明了,在训练期间随机改变方块的大小可以得到一组在广泛的方块大小范围内表现良好的权重(泛化性能好)。
这结论有什么用?那便是使得在部署时大家可以根据不同的计算预算来调整模型。
通过在以下五大版图进行广泛的投资,可以清晰的发现收益率远超沪深300:
图像分类
图像-文本检索
开放世界检测
全景分割
语义分割


为了照顾下你们这些散(韭)户(菜),古哥说你们可以将它任意添加到大多数依赖ViT骨干架构的模型来实现计算自由,即模型可以根据不同的计算资源调整自己的工作方式,从而获得更好的性能和效率。
说了这么多,怎么做?直接把代号都发给你了,明天早盘直接梭哈即可:

看到看到这里了,总不能白嫖吧?点个赞友情转发下再走咯~~~
审核编辑 :李倩
-
谷歌
+关注
关注
27文章
6244浏览量
110263 -
图像
+关注
关注
2文章
1095浏览量
42159 -
模型
+关注
关注
1文章
3649浏览量
51713
原文标题:谷歌提出FlexiViT:适用于所有Patch大小的模型
文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
IEC 62368标准适用于哪些产品
SkyOne® Ultra 3.0 前端模块,适用于 WCDMA / LTE 频段 7、30、40、41 skyworksinc
适用于 LTE 频段 42 的 SkyBlue™ 功率放大器模块 skyworksinc
适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc
用于无线 LAN 的 2.4 GHz 高效前端和适用于蓝牙®应用的端口 skyworksinc
适用于 WLAN 和蓝牙®应用的 2.4 GHz 高效前端 skyworksinc
400 至 510 MHz 前端模块,适用于范围扩展应用 skyworksinc
2.4 GHz、256 QAM 前端模块,用于 WLAN/ 和端口,适用于蓝牙®应用 skyworksinc
用于 WLAN/ 的 2.4 GHz、256 QAM 前端模块和适用于蓝牙®应用的端口 skyworksinc
适用于电机控制的电流滤波方法
低功耗、低功耗前端模块,适用于蓝牙®范围扩展应用 skyworksinc

谷歌提出FlexiViT:适用于所有Patch大小的模型
评论