0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

加速ViT模型新思路!Meta推出Token Merging

OpenCV学堂 来源:新智元 作者:新智元 2022-12-06 15:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】由Meta AI的研究人员推出Token Merging(ToMe),无需训练即可加速 ViT 模型。更重要的是,这个模型不需对token进行剪枝。

视觉变换器(ViT)在两年前进入大众视野,并成为计算机视觉研究的核心组成部分。 它成功将一个在自然语言处理领域的Transformer模型迁移到计算机视觉领域。从那时起,计算机视觉领域的进步已经加速。

尽管在成本与性能方面被超越,Vanilla ViT仍有许多优点。

它们是由简单的矩阵乘法组成的,这使得它们的速度比它们的原始运算量所显示的要快。

此外,它们支持强大的自监督预训练技术,如MAE(掩码自动编码器),可以产生最先进的结果,同时可以进行快速训练。

而且由于它们不对数据进行假设,它们可以几乎不加改变地应用在图片、音频、文本等诸多模式中。

当然,理想很丰满,现实很骨感。ViT模型的规模大,有较大延时。在资源有限的设备上,运行这个复杂模型会产生很大问题。

Token剪枝:变好了,但没完全好 针对运算慢的问题,研究人员给出了多个解决方案。其中一种常见的加速视觉 Transformer模型的方法是对进行token剪枝。 在运行时修剪标记,通过修剪不太重要的token产生高效的Transformer。如DynamicViT分层修剪冗余token,从而在分类任务中实现FLOPs减少。

然而,token剪枝有几个问题,其中最主要的,是由于修剪token会产生信息损失,因此,人们对ViT模型token的剪枝数量是有限的,为了减少信息损失,只能对不重要的token进行修剪。

而且,为了使修剪过的token有效,人们需要再次训练模型。这就造成额外的资源消耗。

更重要的是,token剪枝是动态的过程,需要根据不同的图像或句子确定token剪枝的不同数量。虽然这有利于提高准确性,但却不够实用实用性,因为这种情况下,数据不能再进行批处理。

为了解决这个问题,人们需要在剪枝过程中添加掩码,而这会进一步影响效率的提升。

简单来说,token剪枝确实让ViT跑得更快,但这是在信息损耗的代价上实现的。

TokenMerging:换个想法

怎样才能使ViT的速度类似于剪枝,但保持比剪枝更高的准确度呢?Meta AI研究团队给出了新的解题思路:Token Merging(ToMe)。

70f4dd92-74ad-11ed-8abf-dac502259ad0.png

论文链接:https://arxiv.org/pdf/2210.09461.pdf

Token Merging选择将token结合,而非进行剪枝。由于其定制的匹配算法,它和剪枝一样快,同时更准确。另外,它的工作不需要任何额外的训练,所以你可以在巨大的模型上使用它来加快它们的速度,而不会牺牲很多准确性。

Meta的目标是在现有的ViT中插入一个Token Merging的模块,通过合并冗余的token,在不需要额外训练的前提下提高训练和推理的吞吐量。

基本思路是:在Transformer模型中,通过合并,使每层减少r个token。假设一个Transformer模型有L层,那么通过合并就可以减少rL个token。变量r的大小决定了速度和精度的关系,因为更少的标记意味着更低的准确度但更高的吞吐量。

值得注意的是,在Token Merging中,无论图像的内容如何,都会减少rL标记。这完美解决了token剪枝中无法进行批处理的问题。

通过ToMe,类似的token批在每个Transformer块中被合并:例如,狗的皮毛被合并成一个token。

7110d9f2-74ad-11ed-8abf-dac502259ad0.png

Token Merging被插入每个attention块和每个Transformer块。这也与token剪枝的工作流程形成对比。后者倾向于将剪枝步骤放在每个Transformer块的开头。

7137d688-74ad-11ed-8abf-dac502259ad0.png

通过Token Merging,需要被合并的token的信息可以得到传播,ViT也能够借助attention块中的特征来决定需要合并哪些token。

具体做法

合并的第一步是确定相似的token。在Transformer中的QKV(query, key, value)已被提取的条件下,通过消融实验,研究团队发现使用key可以最好衡量token之间的相似度(下图紫色部分)。

7149485a-74ad-11ed-8abf-dac502259ad0.png

因为key已经总结了每个token中包含的信息,以便用于Attention中的dot-product来衡量token间的相似度。

除了研究哪个指标更好衡量token相似度外,还需要知道什么距离衡量相似度。通过实验研究团队发现,使用使用余弦距离来衡量toke之间的相似度可以获得最好的精度和速度的关系。

71602b60-74ad-11ed-8abf-dac502259ad0.png

确定了token的相似性,接下来需要一个快速的方法来确定哪些token需要匹配,以减少总数的r。

Meta团队没有使用kmeans聚类算法或图分割算法,而是使用匹配算法,因为后者不仅可以精准匹配每一层token的数量,还能快速执行上千次匹配。这些都是迭代聚类算法无法完成的。

因此,Meta团队提出了一个更有效的解决方案。

设计目标如下。1.)避免任何无法并行化的迭代,2.)希望合并的变化是渐进的,因为聚类对多少个标记可以合并到一个组中没有限制(这可能会对网络产生不利影响),而匹配则使大多数标记没有被合并。

7192354c-74ad-11ed-8abf-dac502259ad0.png

将所有token分为相同大小的2个集合A与B。

把从集合A中的每个token到B中与其最相似的token画一条边。

只留下最相似的r条边, 其余删掉。

融合仍然相连的边(特征取均值)。

把这两个集合拼在一起, 得到最终的合并结果。

通过这项独特的技术,可以提高ViT模型的吞吐量和实际训练速度。使用Token Merging可以将训练速度提高一倍。它可以用于图像、视频和音频任务,并且仍然可以达到最先进的准确性。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712
  • Meta
    +关注

    关注

    0

    文章

    316

    浏览量

    12334
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563

原文标题:加速ViT模型新思路!Meta推出Token Merging,不靠剪枝靠合并

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    超大规模企业广泛采用 NVIDIA 网络解决方案,驱动十亿瓦级(Giga-Scale)高性能 AI 数据中心 Meta 推出基于 NVIDIA Spectrum 以太网的交换机,用于
    的头像 发表于 10-14 10:26 1436次阅读
    NVIDIA Spectrum-X 以太网交换机助力 <b class='flag-5'>Meta</b> 和 Oracle <b class='flag-5'>加速</b>网络性能

    成都汇阳投资关于大模型白热化,应用加速分化

    Gemini 2.5 Flash Image登顶 多主流图像榜,Meta 也从 Midjourney 授权 AI 图像模型;视频领域,阿里字节等刷新能力高度 ,谷歌将视频模型推进至实时交互通用世界
    的头像 发表于 09-09 09:30 708次阅读

    Token经济,风起陇东

    以万全之力,筑成东数西算的token经济走廊
    的头像 发表于 04-01 09:46 2241次阅读
    <b class='flag-5'>Token</b>经济,风起陇东

    自动驾驶大模型中常提的Token是个啥?对自动驾驶有何影响?

    、多模态传感器数据的实时处理与决策。在这一过程中,大模型以其强大的特征提取、信息融合和预测能力为自动驾驶系统提供了有力支持。而在大模型的中,有一个“Token”的概念,有些人看到后或许会问:
    的头像 发表于 03-28 09:16 974次阅读

    如何将Cycle模型转换为中间表示 (IR)?

    转换后的 TensorFlow* 1 Cycle ECLIPSE 非冻结模型。 mo --input_meta_graph cyclegan.model-2002.meta 收到错误
    发表于 03-06 07:56

    无法在OVMS上运行来自Meta的大型语言模型 (LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。
    发表于 03-05 08:07

    Meta组建四大专研小组,深入探索DeepSeek模型

    。其中,两个小组致力于解析幻方量化如何降低DeepSeek模型的训练和运行成本,以期从中汲取经验,优化Meta自身的成本结构。第三个研究小组则聚焦于幻方量化训练DeepSeek模型所使用的数据,试图揭示其数据选择的独特之处,为
    的头像 发表于 02-05 14:02 705次阅读

    Meta拓展可穿戴设备领域,计划推出Oakley智能眼镜

    据外媒最新报道,Meta公司正积极拓展其可穿戴设备领域,致力于升级并推出更多创新产品。其中,备受瞩目的智能眼镜项目将迎来全新升级,同时Meta还在探索智能手表和带摄像头的耳机等新型可穿戴设备的研发。
    的头像 发表于 01-23 15:11 987次阅读

    广和通AI解决方案内置大模型,让玩具成为你的智慧伙伴

    广和通推出AI玩具大模型解决方案,该方案深度融合豆包等AI大模型、内置广和通Cat.1模组,助力智能玩具实现AI化升级。该解决方案无需外接MCU,即可实现音视频及图像传输、语音识别、自然语言处理
    的头像 发表于 01-21 11:03 925次阅读
    广和通AI解决方案内置大<b class='flag-5'>模型</b>,让玩具成为你的智慧伙伴

    广和通推出AI玩具大模型解决方案

    广和通推出AI玩具大模型解决方案,该方案深度融合豆包等AI大模型、内置广和通Cat.1模组,助力智能玩具实现AI化升级。该解决方案无需外接MCU,即可实现音视频及图像传输、语音识别、自然语言处理
    的头像 发表于 01-21 10:27 1669次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    的设计不仅提高了机器人对环境的理解能力,还使其能够更精准地执行复杂任务。 扩散模型新思路 除了大模型,扩散模型的引入为机器人控制开辟了新的研究方向。在以UniPi为代表的创新工作中,
    发表于 12-29 23:04

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    ​在人工智能领域,Meta的最新动作再次引起了全球的关注。今天,我们见证了Meta发布的 Llama 3.3 70B 模型,这是一个开源的人工智能模型,它不仅令人印象深刻,而且在性能上
    的头像 发表于 12-18 16:46 880次阅读
    <b class='flag-5'>Meta</b>重磅发布Llama 3.3 70B:开源AI<b class='flag-5'>模型</b>的新里程碑

    Meta发布新AI模型Meta Motivo,旨在提升元宇宙体验

    Meta公司近日宣布,将推出一款名为Meta Motivo的全新人工智能模型。该模型具备控制类似人类的数字代理动作的能力,有望为元宇宙的用户
    的头像 发表于 12-16 10:34 1349次阅读

    Meta推出Metamate AI工具,进军企业市场

    近日,社交媒体巨头Meta正积极进军企业市场,推出了一款内部研发的AI工具——Metamate。这款AI软件以提高企业生产力为目标,旨在为企业提供更高效、智能的解决方案。 Metamate
    的头像 发表于 12-09 14:57 1354次阅读

    Meta推出Llama 3.3 70B,AI大模型竞争白热化

    在今年的AI领域,Meta也不甘落后,推出了其压轴之作——Llama 3.3 70B大模型。与此同时,马斯克的xAI也宣布其Grok模型从今天起全球免费开放(但存在一定的使用限制)。
    的头像 发表于 12-09 14:50 1015次阅读