0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

NVIDIA英伟达 来源:未知 2023-08-04 17:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomToPL6AR5_FAHaFzxWEe4k031.gif

Vision Transformer(ViT)正在席卷计算机视觉领域,提供令人难以置信的准确性、复杂现实场景下强大的解决方案,以及显著提升的泛化能力。这些算法对于推动计算机视觉应用的发展发挥了关键作用,而 NVIDIA 则通过 NVIDIA TAO Toolkit NVIDIA L4 GPU,使应用集成ViT 变得轻而易举。

ViT 的不同之处

ViT 是一种将原本用于自然语言处理的 Transformer 架构应用于视觉数据的机器学习模型。相比基于 CNN 的同类模型具有一些优势,并能够并行处理大规模输入的数据。CNN 采用的是局部操作,因而缺乏对图像的全局理解;而 ViT 则以并行和基于自注意的方式来有效地处理图像,使得所有图像块之间能够相交互,从而提供了长程依赖和全局上下文的能力。

图 1 展示了 ViT 模型中的图像处理流程。输入图像被分为较小的固定尺寸的图块,之后这些图块被展平并转换为一系列的标记 (tokens) 。这些标记连同位置编码一起被输入到 Transformer 编码器中,该编码器由多个自注意力和前馈神经网络组成。

wKgaomToPL6AXQOnAAFu83nqZ0w667.png

图 1. 包含位置编码器和编码器的 ViT 模型处理图像

通过自注意力机制,每个标记或图块与其他标记进行交互,以决定哪些标记是重要的。这有助于模型捕捉标记之间的关系和依赖,并学习哪些标记是更重要的。

例如在有一只鸟的图像中,模型会更关注重要的特征,比如眼睛、鸟嘴和羽毛等,而不是背景。这使得训练更加高效,增强了对图像损坏和噪声情况的鲁棒性,并在未见过的物体上表现出更优越的泛化能力。

为何 ViT 对计算机

视觉应用至关重要

真实世界的环境具有多样且复杂的视觉模式。与 CNN 不同,ViT 凭借自身的可扩展性和适应性,能够处理各种任务,而且无需针对具体的任务调整架构。

wKgaomToPL6AZ6y6AAXFPe2hYdU465.png

图 2. 各种不完美和嘈杂的

现实数据给图像分析带来了难题

在下面的视频中,我们比较了基于 CNN 和 ViT 的模型的噪声视频。在任何情况下,ViT 模型表现都优于 CNN 模型。

视频 1. 了解 SegFormer,这是一个

结合高效率和稳健语义分割能力的 ViT 模型

将 ViT 与 TAO Toolkit 5.0 集成

TAO 是一个低代码 AI 工具包,用于构建和加速视觉 AI 模型,可用于轻松地构建和集成 ViT 到应用和 AI 工作流程中。用户可以通过简单的界面和配置文件快速开始训练 ViT,无需深入了解模型架构。

TAO Toolkit 5.0 提供几种常用于计算机视觉任务的先进 ViT,包括:

全注意力网络(FAN)

FAN 是由 NVIDIA 研究团队开发的一系列基于 Transformer 架构的神经网络主干模型。该系列模型在对抗各种干扰方面达到了当前技术水平的最佳程度,如表格 1 所示。这些主干模型能够轻松适应新的领域,对抗噪声和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 数据集上所达到的准确率,无论是干净版本还是经过干扰处理后的版本。

wKgaomToPL6AVn7BAAAxlWxNk-4355.png

表 1. FAN 模型的大小和准确性

全局上下文 Vision Transformer (GC-ViT)

GC-ViT 是 NVIDIA 研究部门开发的一种具有极高准确性和计算效率的新型架构。该架构解决了 Vision Transformer 中缺乏归纳偏置的问题。通过使用局部自注意力机制,GC-ViT 在参数较少的情况下在 ImageNet 上取得更好的结果,同时结合全局自注意力,可以实现更好的局部和全局空间交互。

wKgaomToPL-AaAcLAAAwtKQJ92g384.png

表 2. GC-ViT 模型的大小和准确性

带有改进后去噪锚框的检测 Transformer(DINO)

DINO 是最新一代的检测变换器(DETR),其训练收敛速度比其他 ViT 和 CNN 更快。在 TAO 工具套件中,DINO 十分灵活,可以与传统 CNN(例如 ResNets)和基于 Transformer 的骨干网络(如 FAN)和 GC-ViT 等相结合。

wKgaomToPL-ASKEWAADXYXf-6Sw823.png

图 3. DINO 与其他模型的准确性比较

Segformer

Segformer 是一个轻量级且具有鲁棒性的基于 Transformer 的语义分割模型。其解码器由轻量级的多头感知层组成。它避免使用大多 Transformer 使用的位置编码,可在不同分辨率下进行高效推理。

使用 NVIDIA L4 GPU

高效驱动 Transformer

NVIDIA L4 GPU 是为未来的视觉 AI 工作负载而打造的。它们采用 NVIDIA Ada Lovelace 架构,旨在加速具有变革性的 AI 技术。

L4 GPU 拥有高达 FP8 485 TFLOPs 的计算能力,适于运行 ViT 工作负载。相较更高精度的计算方式,FP8 的低精度计算可以减轻内存压力,还可以显著提升 AI 的处理速度。

L4 是一款多功能、节能高效的设备,具有单槽、低调的外形,非常适合用于视觉 AI 部署(包括在边缘位置)。

您可以观看Metropolis Developer Meetuphttps://info.nvidia.com/metropolis-meetup-june2023.html),了解有关 ViT、NVIDIA TAO Toolkit 5.0 以及 L4 GPU 的更多信息。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4130

    浏览量

    99841

原文标题:使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瞻芯电子G2 650V SiC MOSFET的验证试验

    瞻芯电子(IVCT)基于经典寿命模型,对大样本量的第二代(G2)650V SiC MOSFET 进行了验证试验(Robustness-Validation)。该试验严格遵循AEC-Q101
    的头像 发表于 12-18 16:35 6925次阅读
    瞻芯电子G2 650V SiC MOSFET的<b class='flag-5'>鲁</b><b class='flag-5'>棒</b><b class='flag-5'>性</b>验证试验

    如何确保电能质量在线监测装置运行日志的准确性

    电能质量在线监测装置运行日志的准确性直接影响故障溯源、合规审计和运维决策,需从 “数据采集源头、记录过程、存储传输、校验维护、管理流程” 五大维度构建闭环保障体系,结合技术手段与行业标准,实现日志
    的头像 发表于 12-17 11:08 834次阅读
    如何确保电能质量在线监测装置运行日志的<b class='flag-5'>准确性</b>?

    确保X光设备检测的有效准确性的关键技巧

    在工业和安全领域,X光设备检测已成为不可或缺的重要环节。然而,许多用户常常面临检测效果不理想、准确性不足的问题,影响生产效率和安全保障。如何确保X光检测设备能够发挥最大效能,准确捕捉目标信息,是当前
    的头像 发表于 11-18 11:27 656次阅读

    如何降低环境干扰强度对谐波检测设备准确性的影响?

      降低环境干扰强度对谐波检测设备准确性的影响,需围绕 “ 阻断干扰传播路径→优化设备自身抗扰能力→修正干扰导致的误差→合理布局规避干扰 ” 四大核心思路,从硬件防护、信号处理、安装布局、设备
    的头像 发表于 10-13 17:32 1337次阅读

    电能质量在线监测装置的精度等级对其测量结果的准确性有何影响?

    电能质量在线监测装置的精度等级是衡量其测量结果准确性的 核心量化指标 ,直接决定了测量值与 “真实值” 的偏差范围。精度等级越高(如 A 级),误差限值越严格,测量结果的准确性越高;反之(如 B/C
    的头像 发表于 09-26 17:40 1607次阅读

    怎样提高电能质量在线监测装置定位谐波源的准确性

    提高电能质量在线监测装置定位谐波源的准确性,需围绕 “ 优化监测基础条件→升级核心技术能力→适配电网动态工况→强化数据质量管控 ” 四大维度,针对 “测点布局、同步精度、算法适配、干扰抑制” 等关键
    的头像 发表于 09-26 15:24 891次阅读

    电能质量在线监测装置定位谐波源的准确性有多高?

    电能质量在线监测装置定位谐波源的准确性 没有固定数值 ,而是受 “ 监测网络设计、技术参数精度、算法适配、电网工况复杂 ” 四大核心因素影响,呈现 “ 场景化差异 ”—— 在理想条件下(如低压配
    的头像 发表于 09-26 15:20 864次阅读

    如何保障电能质量监测装置的准确性

    保障电能质量监测装置(以下简称 “装置”)的准确性,需贯穿其 “ 选型→安装→运行维护→校准→报废 ” 全生命周期,核心是通过 “ 源头把控硬件精度、过程规避干扰与退化、定期验证与修正 ”,确保装置
    的头像 发表于 09-23 16:03 1185次阅读

    如何保证数据校验系统的时间同步以提高准确性

    在电能质量监测的数据校验系统中, 时间同步的准确性直接决定了多监测点数据的时空一致、暂态事件的时序匹配度,以及校验结果的可信度 。要保证时间同步以提升数据校验准确性,需从 “协议选择、硬件保障
    的头像 发表于 09-19 11:28 967次阅读

    电能质量监测中,有哪些方法可以提高数据校验系统的准确性

    在电能质量监测中,数据校验系统的准确性是保障监测数据可信度的核心,需从 “标准源精度、校准流程、硬件适配、算法优化、时间同步、运维管理” 等多维度构建提升方案,针对解决 “信号失真、参数偏差、环境
    的头像 发表于 09-19 10:03 825次阅读

    如何确保电能质量在线监测装置的数据校验的准确性

    确保电能质量在线监测装置(以下简称 “监测装置”)数据校验的准确性,需围绕 “ 标准溯源、流程规范、环境控制、数据审核、全周期追溯 ” 五大核心环节,建立全链条管控机制,覆盖校验前准备、校验过程执行
    的头像 发表于 09-18 11:05 868次阅读
    如何确保电能质量在线监测装置的数据校验的<b class='flag-5'>准确性</b>?

    如何使用运行数据趋势分析验证装置准确性

    利用运行数据趋势分析验证电能质量在线监测装置准确性,核心逻辑是 通过长期采集的电网运行数据,判断其趋势是否符合电网实际规律、是否具备稳定性与一致 —— 若装置准确,其输出的数据趋势应与电网工况(如
    的头像 发表于 09-18 10:33 670次阅读
    如何使用运行数据趋势分析验证装置<b class='flag-5'>准确性</b>?

    测缝计测量数据的准确性和校准方法解析

    在结构物安全监测领域,数据准确性是评估工程健康状态的核心依据。振弦式测缝计作为主流裂缝监测设备,其测量精度直接影响裂缝发展趋势的判断。那么如何确保测缝计测量数据的准确性以及如何校准?下面是南京峟思给
    的头像 发表于 07-07 13:56 894次阅读
    测缝计测量数据的<b class='flag-5'>准确性</b>和校准方法解析

    必知!影响手机气密检测准确性的重要因素

    移动设备防水防尘技术升级,手机气密检测成保障产品可靠的关键。但检测准确性受设备精度、环境稳定性、操作规范性及手机结构设计局限等因素干扰,影响测试结果、产品良品率和用户体验。影响手机气密
    的头像 发表于 07-04 14:26 1069次阅读
    必知!影响手机气密<b class='flag-5'>性</b>检测<b class='flag-5'>准确性</b>的重要因素

    手表外壳气密检测仪:如何有效提升检测效率与准确性

    在手表制造行业,手表外壳的气密检测至关重要。一款优质的气密检测仪能够精准判断手表外壳的密封性能,确保手表在各种环境下正常运行。那么,怎样才能有效提升手表外壳气密检测仪的检测效率与准确性
    的头像 发表于 06-07 14:01 1068次阅读
    手表外壳气密<b class='flag-5'>性</b>检测仪:如何有效提升检测效率与<b class='flag-5'>准确性</b>