0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

NVIDIA英伟达 来源:未知 2023-08-04 17:40 次阅读

wKgaomToPL6AR5_FAHaFzxWEe4k031.gif

Vision Transformer(ViT)正在席卷计算机视觉领域,提供令人难以置信的准确性、复杂现实场景下强大的解决方案,以及显著提升的泛化能力。这些算法对于推动计算机视觉应用的发展发挥了关键作用,而 NVIDIA 则通过 NVIDIA TAO Toolkit NVIDIA L4 GPU,使应用集成ViT 变得轻而易举。

ViT 的不同之处

ViT 是一种将原本用于自然语言处理的 Transformer 架构应用于视觉数据的机器学习模型。相比基于 CNN 的同类模型具有一些优势,并能够并行处理大规模输入的数据。CNN 采用的是局部操作,因而缺乏对图像的全局理解;而 ViT 则以并行和基于自注意的方式来有效地处理图像,使得所有图像块之间能够相交互,从而提供了长程依赖和全局上下文的能力。

图 1 展示了 ViT 模型中的图像处理流程。输入图像被分为较小的固定尺寸的图块,之后这些图块被展平并转换为一系列的标记 (tokens) 。这些标记连同位置编码一起被输入到 Transformer 编码器中,该编码器由多个自注意力和前馈神经网络组成。

wKgaomToPL6AXQOnAAFu83nqZ0w667.png

图 1. 包含位置编码器和编码器的 ViT 模型处理图像

通过自注意力机制,每个标记或图块与其他标记进行交互,以决定哪些标记是重要的。这有助于模型捕捉标记之间的关系和依赖,并学习哪些标记是更重要的。

例如在有一只鸟的图像中,模型会更关注重要的特征,比如眼睛、鸟嘴和羽毛等,而不是背景。这使得训练更加高效,增强了对图像损坏和噪声情况的鲁棒性,并在未见过的物体上表现出更优越的泛化能力。

为何 ViT 对计算机

视觉应用至关重要

真实世界的环境具有多样且复杂的视觉模式。与 CNN 不同,ViT 凭借自身的可扩展性和适应性,能够处理各种任务,而且无需针对具体的任务调整架构。

wKgaomToPL6AZ6y6AAXFPe2hYdU465.png

图 2. 各种不完美和嘈杂的

现实数据给图像分析带来了难题

在下面的视频中,我们比较了基于 CNN 和 ViT 的模型的噪声视频。在任何情况下,ViT 模型表现都优于 CNN 模型。

视频 1. 了解 SegFormer,这是一个

结合高效率和稳健语义分割能力的 ViT 模型

将 ViT 与 TAO Toolkit 5.0 集成

TAO 是一个低代码 AI 工具包,用于构建和加速视觉 AI 模型,可用于轻松地构建和集成 ViT 到应用和 AI 工作流程中。用户可以通过简单的界面和配置文件快速开始训练 ViT,无需深入了解模型架构。

TAO Toolkit 5.0 提供几种常用于计算机视觉任务的先进 ViT,包括:

全注意力网络(FAN)

FAN 是由 NVIDIA 研究团队开发的一系列基于 Transformer 架构的神经网络主干模型。该系列模型在对抗各种干扰方面达到了当前技术水平的最佳程度,如表格 1 所示。这些主干模型能够轻松适应新的领域,对抗噪声和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 数据集上所达到的准确率,无论是干净版本还是经过干扰处理后的版本。

wKgaomToPL6AVn7BAAAxlWxNk-4355.png

表 1. FAN 模型的大小和准确性

全局上下文 Vision Transformer (GC-ViT)

GC-ViT 是 NVIDIA 研究部门开发的一种具有极高准确性和计算效率的新型架构。该架构解决了 Vision Transformer 中缺乏归纳偏置的问题。通过使用局部自注意力机制,GC-ViT 在参数较少的情况下在 ImageNet 上取得更好的结果,同时结合全局自注意力,可以实现更好的局部和全局空间交互。

wKgaomToPL-AaAcLAAAwtKQJ92g384.png

表 2. GC-ViT 模型的大小和准确性

带有改进后去噪锚框的检测 Transformer(DINO)

DINO 是最新一代的检测变换器(DETR),其训练收敛速度比其他 ViT 和 CNN 更快。在 TAO 工具套件中,DINO 十分灵活,可以与传统 CNN(例如 ResNets)和基于 Transformer 的骨干网络(如 FAN)和 GC-ViT 等相结合。

wKgaomToPL-ASKEWAADXYXf-6Sw823.png

图 3. DINO 与其他模型的准确性比较

Segformer

Segformer 是一个轻量级且具有鲁棒性的基于 Transformer 的语义分割模型。其解码器由轻量级的多头感知层组成。它避免使用大多 Transformer 使用的位置编码,可在不同分辨率下进行高效推理。

使用 NVIDIA L4 GPU

高效驱动 Transformer

NVIDIA L4 GPU 是为未来的视觉 AI 工作负载而打造的。它们采用 NVIDIA Ada Lovelace 架构,旨在加速具有变革性的 AI 技术。

L4 GPU 拥有高达 FP8 485 TFLOPs 的计算能力,适于运行 ViT 工作负载。相较更高精度的计算方式,FP8 的低精度计算可以减轻内存压力,还可以显著提升 AI 的处理速度。

L4 是一款多功能、节能高效的设备,具有单槽、低调的外形,非常适合用于视觉 AI 部署(包括在边缘位置)。

您可以观看Metropolis Developer Meetuphttps://info.nvidia.com/metropolis-meetup-june2023.html),了解有关 ViT、NVIDIA TAO Toolkit 5.0 以及 L4 GPU 的更多信息

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3330

    浏览量

    87798

原文标题:使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FLOEFD T3STER自动校准模块—提高电子产品散热设计的准确性

    西门子工业数字软件FLOEFD T3STER 自动校准模块——提高电子产品散热设计的准确性
    的头像 发表于 02-21 10:10 190次阅读
    FLOEFD T3STER自动校准模块—<b class='flag-5'>提高</b>电子产品散热设计的<b class='flag-5'>准确性</b>

    NVIDIA TAO 5.2版本发布

    NVIDIA TAO 提供了一个低代码开源 AI 框架,无论你是初学者还是专业的数据科学家,都可以使用该框架加速视觉 AI 模型开发。开发者
    的头像 发表于 01-03 10:11 255次阅读

    AD2S1210修改寄存器中的阈值对位置码值的准确性会有影响吗?

    AD2S1210中有很多故障阈值设置的地方,比如DOS超量程、LOS上下限等等,这些阈值都可以在寄存器中设置。我们在使用时没有修改过这些阈值,但发现经常报故障,但位置码值也能采回来。 我的问题是:修改寄存器中的阈值对位置码值的准确性会有影响吗?修改阈值后采样到的位置码值和真是位置的误差会变化吗?
    发表于 12-18 07:31

    怎样使用NVIDIA TAO为数万亿台设备开发和优化视觉AI模型呢?

    全球开发者正在使用 NVIDIA TAO 工具套件构建 AI 视觉感知和计算机视觉应用。如今,得益于显著的平台增强和生态对其的大力采用,这一
    的头像 发表于 12-14 15:55 278次阅读

    Dropbox 与 NVIDIA 携手为数百万客户带来个性化的生成式 AI

    丰富的 AI 功能,以提高搜索的准确性、提供更好的组织结构,并简化客户在云内容中的工作流。 Dropbox 计划使用由 NVIDIA AI
    的头像 发表于 11-20 20:55 330次阅读
    Dropbox 与 <b class='flag-5'>NVIDIA</b> 携手为数百万客户带来个性化的生成式 <b class='flag-5'>AI</b>

    Dropbox 与 NVIDIA 携手为数百万客户带来个性化的生成式 AI

    其知识工作,并提高生产力。   此次合作将通过新的个性化生成式 AI 应用进一步扩展 Dropbox 丰富的 AI 功能,以提高搜索的准确性
    发表于 11-20 13:47 146次阅读
    Dropbox 与 <b class='flag-5'>NVIDIA</b> 携手为数百万客户带来个性化的生成式 <b class='flag-5'>AI</b>

    利用 NVIDIA Jetson 实现生成式 AI

    近日,NVIDIA 发布了 Jetson 生成式 AI 实验室(Jetson Generative AI Lab),使开发者能够通过 NVIDIA Jetson 边缘设备在现实世界中探
    的头像 发表于 11-07 21:25 491次阅读
    利用 <b class='flag-5'>NVIDIA</b> Jetson 实现生成式 <b class='flag-5'>AI</b>

    在线研讨会 | 利用生成式 AI 改变视觉 AI 应用

    研讨会时间: 2023 年 11 月 3 日(周五)上午 11:00  (北京时间) 生成式 AI、大语言模型(LLM)和视觉 Transformer 提供了前所未有的功能,世界各地的开发者们都在
    的头像 发表于 11-01 20:25 310次阅读

    在线研讨会 | 就在明天!NVIDIA TAO Toolkit 5.0 助力 OCR 视觉 AI 模型快速训练与优化

    技术的应用广泛,但构建和优化 OCR 的 AI 模型并非易事。它需要深厚的计算机科学知识,精细的编程技巧,以及对 AI 模型优化的深入理解。 NVIDIA TAO  是一款强大的
    的头像 发表于 08-21 21:05 299次阅读
    在线研讨会 | 就在明天!<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TAO</b> Toolkit 5.0 助力 OCR <b class='flag-5'>视觉</b> <b class='flag-5'>AI</b> 模型快速训练与优化

    使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

    NVIDIA TAO 工具套件 提供了一个低代码 AI 框架,无论是新手还是数据科学专家都可以使用这个平台加速视觉 AI 模型开发。有了
    的头像 发表于 07-31 20:45 413次阅读
    使用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TAO</b> Toolkit 5.0 体验最新的<b class='flag-5'>视觉</b> <b class='flag-5'>AI</b> 模型开发工作流程

    如何提高数据填报的准确性?#数据填报 #光点科技

    数据
    光点科技
    发布于 :2023年07月28日 12:09:16

    水雨情远传系统——提高防洪准确性

    我国每年都会遭受不同程度的洪涝灾害,建立自动化的水雨情远传系统,可以提高洪水预警准确性,为防洪抢险提供科学依据。 一、系统构成 水雨情远传系统主要包含以下组件: 1)检测设备:采集降雨、水位等参数
    的头像 发表于 07-13 15:11 181次阅读
    水雨情远传系统——<b class='flag-5'>提高</b>防洪<b class='flag-5'>准确性</b>

    在线研讨会 | 释放 Vision Transformers、NVIDIA TAO 和最新一代 NVIDIA GPU 的潜力

    )相比,它不仅提供了超高的准确性,还使图像理解和分析提升到了前所未有的水平。 NVIDIA 让您可以利用 ViTs 的强大功能为 AI 应用提供助力。参与本次研讨会,一起来了解如何将 ViTs
    的头像 发表于 06-16 11:45 349次阅读
    在线研讨会 | 释放 <b class='flag-5'>Vision</b> Transformers、<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TAO</b> 和最新一代 <b class='flag-5'>NVIDIA</b> GPU 的潜力

    AI视觉检测在工业领域的应用

    、判断和检测生产线上的各种产品,保证产品的质量和一致。与传统的视觉检测方法相比,工业AI视觉检测系统具有如下几个显著优点: 1.高效:工
    发表于 06-15 16:21

    KEAZN64内部温度传感器之间存在5.5摄氏度的差异,如何判断准确性

    。我们由此计算出的值为 34 摄氏度。 内部温度传感器和外部 (NTC) 传感器之间存在 5.5 摄氏度的差异。 我们如何判断准确性
    发表于 05-05 09:21