0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2021-12-28 10:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

白皮书《Transformer-LS:用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” (Transformer-LS),这是一种高效的 Transformer 架构,用于为语言和视觉任务模拟中具有线性复杂度的长序列。

鉴于 Transformer 的模型在自然语言处理 (NLP) 和计算机视觉领域已经取得了巨大的成功。这种模型可受益于自注意力模块,后者既可捕获词元间的相邻相关性和长距离相关性,同时又能在现代硬件上高效扩展。

然而,自注意力机制所消耗的时间和内存与输入长度呈二次方关系,使其处理长序列的成本非常高昂。许多语言和视觉任务能够从长序列建模中获益。在 NLP 中,文档级任务需要处理较长的文章,而语言模型的性能往往随序列长度而增加。

在计算机视觉里,大量任务涉及高分辨率图像。而这些图像在使用 Transformer 模型处理前,会被转换成图像块的长序列。因此,设计一种能泛化到各种不同领域的长序列建模的高效注意力机制至关重要。

一直以来,业界提出了各种方法来减少完全注意力机制的二次方成本。但是,在语言和视觉领域都有良好应用的高效注意力机制尚未得到深入研究。一类方法使用滑动窗口和随机稀疏模式等预定义模式对注意力矩阵进行稀疏化处理。

这类方法使用强大的归纳偏置来改善计算性能和模型性能,但它们会限制自注意力层的能力,因为每个特定分词器只能处理一个词元子集。

另一类方法使用 low-rank 投影为输入序列构成低分辨率表示,但这类方法只能对特定的 NLP 任务有效。与稀疏注意力不同,这类方法允许每个分词器处理整个输入序列。但是,由于缺少高保真度词元级信息,对于需要细粒度局部信息的任务(包括语言领域和视觉领域的标准基准测试)而言,这类方法的性能有时并不优于完全注意力或稀释注意力机制。

尽管高效 Transformer 的发展相当迅速,一些提出的架构只适用于双向模型。基于 Transformer 的自回归模型已经在语言建模 、图像合成 和文本转图像合成领域取得了巨大的成功。这些领域都涉及长文本或高分辨率图像。

因此,有必要设计一种同时适用于自回归模型和双向模型的高效 Transformer。

在白皮书《Transformer-LS:用于语言和视觉处理的高效 Transformer》中,研究把局部窗口注意力和新颖的长距离注意力统一成单个高效注意力机制。展示这两种注意力机制的互补效应,能在多种语言和视觉任务中为自回归模型和双向模型带来优异的效果。

原文标题:白皮书 | 《Transformer-LS:用于语言和视觉处理的高效Transformer》

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47729
  • Transformer
    +关注

    关注

    0

    文章

    156

    浏览量

    6962

原文标题:白皮书 | 《Transformer-LS:用于语言和视觉处理的高效Transformer》

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能多模态与视觉大模型开发实战 - 2026必会

    和训练,模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉大模型的发展还得益于大规模数据集和强大计算资源的支持。海量标注数据为模型提供了丰富的学习样本,使其能
    发表于 04-15 16:06

    面向视觉语言导航的任务驱动式地图学习框架MapDream介绍

    视觉语言导航(VLN),地图长期作为独立模块构建,并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块,这些表示大多脱离策略学习而设计。结果是,机器人即使掌握场景的信息,也仍可能绕行甚至偏离目标,因为地图
    的头像 发表于 03-02 10:40 627次阅读
    面向<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>导航的<b class='flag-5'>任务</b>驱动式地图学习框架MapDream介绍

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的一个分支,它会教计算机如何理解口头和书面形式的人类语言。自然语言处理将计算
    的头像 发表于 01-29 14:01 613次阅读
    自然<b class='flag-5'>语言</b><b class='flag-5'>处理</b>NLP的概念和工作原理

    机器视觉网卡:工业视觉系统的高速传输基石

    在智能制造的浪潮,机器视觉技术如同工业设备的“精细之眼”,为生产线赋予了自动化检测、精细定位、智能分拣的主要能力。而这双“眼睛”能否高效运转,不只依赖于工业相机的成像精度和算法的处理
    的头像 发表于 01-14 16:01 354次阅读
    机器<b class='flag-5'>视觉</b>网卡:工业<b class='flag-5'>视觉</b>系统的高速传输基石

    低成本改造实录:如何让MODBUS TCP与PROFIBUS在铝厂握手言和

    低成本改造实录:如何让MODBUS TCP与PROFIBUS在铝厂握手言和 去年夏天,我负责的一个铝电解车间数字化改造项目,遇到了个典型的老难题。中控室崭新的监控平台说着流利的“MODBUS TCP
    的头像 发表于 12-22 14:25 287次阅读
    低成本改造实录:如何让MODBUS TCP与PROFIBUS在铝厂握手<b class='flag-5'>言和</b>

    瑞芯微SOC智能视觉AI处理

    需要连接多种外设的产品。显示: 支持双屏异显,最高4K@60fps输出。 RK1126B: 一款集成自研NPU的智能视觉AI处理器,专注于视频输入端的AI分析与处理。CPU: 双核A5
    发表于 12-19 13:44

    C语言和C++之间的区别是什么

    区别 1、面向对象编程 (OOP): C语言是一种面向过程的语言,它强调的是通过函数将任务分解为一系列步骤进行执行。 C++在C语言的基础上扩展了面向对象的特性,支持类(class)
    发表于 12-11 06:23

    C语言特性

    1、高效性:直接操作硬件 C 语言代码的执行效率极高,这是其最为显著的优势之一。它能够直接访问硬件资源,与底层硬件进行紧密交互,充分发挥硬件的性能潜力。在嵌入式开发,硬件资源往往十分有限,对程序
    发表于 11-24 07:01

    C语言在嵌入式开发的应用

    对外部事件做出响应并完成任务的系统,对任务的响应时间和执行时间有着严格的要求。C 语言在实时系统开发具有重要的地位,它能够满足实时系统对高效
    发表于 11-21 08:09

    C语言和单片机C语言有什么差异

    单片机c语言相对于普通C语言增加了一些基本的指令,还有变量的赋值是16进制,当然单片机c语言只牵涉到普通c语言非常基础部分。 主要的差异具体体现在: 1、单片机
    发表于 11-14 07:55

    一文了解Mojo编程语言

    ,利用硬件加速提升效率。 科学计算与数据处理 高效处理大规模数值分析、基因组学数据等任务。 系统工具开发 开发操作系统级工具,结合 Python 的便捷性和 C 的性能优势。 嵌入式与
    发表于 11-07 05:59

    机器视觉缺陷检测传感器集成的五大关键

    质量控制是制造流程至关重要但往往效率低下的环节。机器视觉能够自动化部分或全部缺陷检测任务,但仅靠技术本身无法带来显著改进。必须理解并优化整个机器
    的头像 发表于 11-03 11:40 957次阅读
    机器<b class='flag-5'>视觉</b>缺陷检测<b class='flag-5'>中</b>传感器集成的五大关键

    【HZ-T536开发板免费体验】3 - Cangjie Magic调用视觉语言大模型(VLM)真香,是不是可以没有YOLO和OCR了?

    Sampling)全面提升模型能力, 达到 10B 参数级别的视觉语言模型的最强性能,在18个榜单任务持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 同步开源基座模型
    发表于 08-01 22:15

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习
    的头像 发表于 07-08 10:00 751次阅读
    Aux-Think打破<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>导航<b class='flag-5'>任务</b>的常规推理范式

    C语言精彩编程百例-364页

    内容提要 C是一种通用的程序设计语言,它包含了紧凑的表达式、丰富的运算符集合、现代控制流以及数据结构等四个部分。C语言功能丰富,衣达能力强,使用起来灵活方便:它应用面广,可移植性强,网时具有高级语言和
    发表于 06-13 17:28