0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2021-12-28 10:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

白皮书《Transformer-LS:用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” (Transformer-LS),这是一种高效的 Transformer 架构,用于为语言和视觉任务模拟中具有线性复杂度的长序列。

鉴于 Transformer 的模型在自然语言处理 (NLP) 和计算机视觉领域已经取得了巨大的成功。这种模型可受益于自注意力模块,后者既可捕获词元间的相邻相关性和长距离相关性,同时又能在现代硬件上高效扩展。

然而,自注意力机制所消耗的时间和内存与输入长度呈二次方关系,使其处理长序列的成本非常高昂。许多语言和视觉任务能够从长序列建模中获益。在 NLP 中,文档级任务需要处理较长的文章,而语言模型的性能往往随序列长度而增加。

在计算机视觉里,大量任务涉及高分辨率图像。而这些图像在使用 Transformer 模型处理前,会被转换成图像块的长序列。因此,设计一种能泛化到各种不同领域的长序列建模的高效注意力机制至关重要。

一直以来,业界提出了各种方法来减少完全注意力机制的二次方成本。但是,在语言和视觉领域都有良好应用的高效注意力机制尚未得到深入研究。一类方法使用滑动窗口和随机稀疏模式等预定义模式对注意力矩阵进行稀疏化处理。

这类方法使用强大的归纳偏置来改善计算性能和模型性能,但它们会限制自注意力层的能力,因为每个特定分词器只能处理一个词元子集。

另一类方法使用 low-rank 投影为输入序列构成低分辨率表示,但这类方法只能对特定的 NLP 任务有效。与稀疏注意力不同,这类方法允许每个分词器处理整个输入序列。但是,由于缺少高保真度词元级信息,对于需要细粒度局部信息的任务(包括语言领域和视觉领域的标准基准测试)而言,这类方法的性能有时并不优于完全注意力或稀释注意力机制。

尽管高效 Transformer 的发展相当迅速,一些提出的架构只适用于双向模型。基于 Transformer 的自回归模型已经在语言建模 、图像合成 和文本转图像合成领域取得了巨大的成功。这些领域都涉及长文本或高分辨率图像。

因此,有必要设计一种同时适用于自回归模型和双向模型的高效 Transformer。

在白皮书《Transformer-LS:用于语言和视觉处理的高效 Transformer》中,研究把局部窗口注意力和新颖的长距离注意力统一成单个高效注意力机制。展示这两种注意力机制的互补效应,能在多种语言和视觉任务中为自回归模型和双向模型带来优异的效果。

原文标题:白皮书 | 《Transformer-LS:用于语言和视觉处理的高效Transformer》

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47445
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6808

原文标题:白皮书 | 《Transformer-LS:用于语言和视觉处理的高效Transformer》

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    C语言在嵌入式开发的应用

    对外部事件做出响应并完成任务的系统,对任务的响应时间和执行时间有着严格的要求。C 语言在实时系统开发具有重要的地位,它能够满足实时系统对高效
    发表于 11-21 08:09

    C语言和单片机C语言有什么差异

    单片机c语言相对于普通C语言增加了一些基本的指令,还有变量的赋值是16进制,当然单片机c语言只牵涉到普通c语言非常基础部分。 主要的差异具体体现在: 1、单片机
    发表于 11-14 07:55

    机器视觉缺陷检测传感器集成的五大关键

    质量控制是制造流程至关重要但往往效率低下的环节。机器视觉能够自动化部分或全部缺陷检测任务,但仅靠技术本身无法带来显著改进。必须理解并优化整个机器
    的头像 发表于 11-03 11:40 582次阅读
    机器<b class='flag-5'>视觉</b>缺陷检测<b class='flag-5'>中</b>传感器集成的五大关键

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习
    的头像 发表于 07-08 10:00 418次阅读
    Aux-Think打破<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>导航<b class='flag-5'>任务</b>的常规推理范式

    C语言精彩编程百例-364页

    内容提要 C是一种通用的程序设计语言,它包含了紧凑的表达式、丰富的运算符集合、现代控制流以及数据结构等四个部分。C语言功能丰富,衣达能力强,使用起来灵活方便:它应用面广,可移植性强,网时具有高级语言和
    发表于 06-13 17:28

    ​VLM(视觉语言模型)​详细解析

    的详细解析: 1. 核心组成与工作原理 视觉编码器 :提取图像特征,常用CNN(如ResNet)或视觉Transformer(ViT)。 语言模型 :
    的头像 发表于 03-17 15:32 7540次阅读
    ​VLM(<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型)​详细解析

    全志视觉芯片V821接入DeepSeek和豆包视觉大模型

    带来一款全志新的视觉芯片V821,通过网络接入的方式打通DeepSeek-R1满血版模型和豆包视觉大模型,并展示其语言和视觉交互的能力和多样
    的头像 发表于 02-21 09:27 3611次阅读

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3228次阅读
    一文详解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)的序列到序列任务,如机器翻译。Transformer 通过引入自注意力机制使得处理长距离依赖关系时变得
    的头像 发表于 02-06 10:21 5717次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    处理器,集成了3.2TOPs@INT8算力的高能效NPU,提供强大的AI推理能力,能够高效执行复杂的视觉(CV)及大语言模型(LLM)任务
    的头像 发表于 01-17 18:48 1191次阅读
    新品| LLM630 Compute Kit,AI 大<b class='flag-5'>语言</b>模型推理开发平台

    Triton编译器支持的编程语言

    Triton编译器支持的编程语言主要包括以下几种: 一、主要编程语言 Python :Triton编译器通过Python接口提供了对Triton语言和编译器的访问,使得用户可以在Python环境
    的头像 发表于 12-24 17:33 1444次阅读

    小米汽车接入VLM视觉语言大模型,OTA更新带来多项升级

    小米汽车近日宣布,其SU7车型的1.4.5版OTA(空中升级)已经开始推送。此次更新带来了多项新增功能和体验优化,旨在进一步提升用户的驾驶体验。 其中最引人注目的是,小米汽车正式接入了VLM视觉语言
    的头像 发表于 12-24 09:52 1450次阅读

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    (VLM)是一种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示,并通过复杂的推理过程,实现对这些信息的准确理解和应用。NaVILA正是基于这一原理,通过将大型语言模型(LLM)与
    的头像 发表于 12-13 10:51 956次阅读

    如何使用自然语言处理分析文本数据

    媒体、新闻报道、用户评论等)收集你感兴趣的文本数据。 数据清洗 :去除无关字符(如HTML标签、特殊符号等),确保文本数据干净且一致。 2. 预处理 分词 :将文本分割成有意义的单元(单词、短语或句子),这取决于使用的语言和分析需求。 英文
    的头像 发表于 12-05 15:27 2376次阅读

    自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

    Learning,简称ML)是人工智能的一个核心领域,它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系,因为机器学习提供了一种强大的工具,用于从大量文本数据中提取模式和知识,从而提高NLP系
    的头像 发表于 12-05 15:21 2540次阅读