0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

NVIDIA英伟达 来源:未知 2023-08-22 19:20 次阅读
31020dca-40dd-11ee-a2ef-92fbcf53809c.png

NVIDIA Jetson Orin 是同类嵌入式人工智能平台中的翘楚。Jetson Orin SoC 模块NVIDIA Ampere 架构 GPU 为核心,但 SoC 上还有更多的计算功能:

NVIDIA Orin SoC 的功能非常强大,拥有 275 个峰值 AI TOPs,是最佳的嵌入式和汽车 AI 平台。您知道吗,这些 AI TOPs 中近 40% 来自 NVIDIA Orin 上的两个 DLA?NVIDIA Ampere GPU 拥有同类产品中最佳的吞吐量,而第二代 DLA 则拥有同类产品中最佳的能效。近年来,随着 AI 应用的快速增长,对更高效计算的需求也在不断增长。在能效始终是关键 KPI 的嵌入式方面尤其如此。

这就是 DLA 的用武之地。DLA 专门为深度学习推理而设计,可以比 CPU 更有效地执行卷积等计算密集型深度学习操作。

当集成到 SoC(如Jetson AGX OrinNVIDIA DRIVE Orin)中时, GPU 和 DLA 的组合可以为您的嵌入式 AI 应用程序提供一个完整的解决方案。我们将在这篇文章中讨论深度学习加速器,让您不再错过。我们将介绍涵盖汽车和机器人领域的几个案例研究,以展示 DLA 如何帮助 AI 开发者为其应用程序添加更多功能和性能。最后,我们将介绍视觉 AI 开发者如何使用 DeepStream SDK 构建应用工作流,使用 DLA 和整个 Jetson SoC 实现最佳性能。

以下是 DLA 会产生重大影响的一些关键性能指标。

关键性能指标

在设计应用程序时,您需要满足一些关键性能指标或 KPI。例如最大性能和能效之间的设计权衡,这需要开发团队仔细分析和设计应用程序,以便在 SoC 上使用不同的 IP。

如果应用程序的关键 KPI 是延迟,则必须在一定的延迟预算下在应用程序中安排任务。您可以将 DLA 作为加速器,用于与运行在 GPU 上的计算密集型任务并行的任务。DLA 峰值性能对 NVIDIA Orin 整体深度学习(DL)性能的贡献率在 38% 至 74% 之间,具体取决于电源模式。

3133ff6a-40dd-11ee-a2ef-92fbcf53809c.png

表 1. DLA 吞吐量

Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 与 NVIDIA DRIVE Orin 汽车平台上的最大时钟相当。

如果功耗是您的关键 KPI 之一,那么就应该考虑使用 DLA 来利用其功耗效率方面的优势。与 GPU 相比,每瓦 DLA 的性能平均高出 3–5 倍,这具体取决于电源模式和工作负载。以下图表显示了代表常见用例的三个模型的每瓦性能。

314aaee0-40dd-11ee-a2ef-92fbcf53809c.png

图 1. DLA 能效

315f7b04-40dd-11ee-a2ef-92fbcf53809c.png

图 2. 结构化稀疏性和每瓦性能优势

换句话说,如果没有 DLA 的能效,就不可能在给定的平台功率预算下在 NVIDIA Orin 上实现高达 275 个峰值的 DL TOPs。想要了解更多信息和更多型号的测量结果,请参阅 DLA-SW GitHub 库。

以下是 NVIDIA 内部如何在汽车和机器人领域使用 DLA 提供的 AI 计算的一些案例研究。

案例研究:汽车

NVIDIA DRIVE AV是端到端的自动驾驶解决方案堆栈,可帮助汽车原始设备制造商在其汽车产品组合中添加自动驾驶和映射功能。它包括感知层、映射层和规划层,以及基于高质量真实驾驶数据训练的各种 DNN。

NVIDIA DRIVE AV 团队的工程师致力于设计和优化感知、映射,并通过利用整个 NVIDIA Orin SoC 平台规划工作流。考虑到自动驾驶堆栈中需要处理大量的神经网络和其他非 DNN 任务,它们会依靠 DLA 作为 NVIDIA Orin SoC 上的专用推理引擎来运行 DNN 任务。这一点至关重要,因为 GPU 计算能力是为处理非 DNN 任务而保留的。如果没有 DLA 计算,团队将无法达到 KPI。

31754696-40dd-11ee-a2ef-92fbcf53809c.png

图3.感知管线的一部分

想要了解更多信息,请访问Near-Range Obstacle Perception with Early Grid Fusion:https://developer.nvidia.cn/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/

例如,在感知工作流中,它们有来自八个不同相机传感器的输入,整个工作流的延迟必须低于某个阈值。感知堆栈是 DNN 的重头戏,占所有计算的 60% 以上。

为了达到这些 KPI,并行工作流任务被映射到 GPU 和 DLA,其中几乎所有的 DNN 都在 DLA 上运行,而非 DNN 任务则在 GPU 上运行,以实现总体工作流的延迟目标。然后,其他 DNN 在映射和规划等其他工作流中按顺序或并行消耗输出。您可以将工作流视为一个巨大的图形,其中的任务在 GPU 和 DLA 上并行运行。通过使用 DLA,该团队将延迟降低了 2.5 倍。

319e50ae-40dd-11ee-a2ef-92fbcf53809c.png

图 4. 作为感知堆栈一部分的对象检测

NVIDIA 自动驾驶团队工程经理 Abhishek Bajarger 表示:“利用整个 SoC,特别是 DLA 中专用的深度学习推理引擎,使我们能够在满足延迟要求和 KPI 目标的同时,为软件堆栈添加重要功能。只有 DLA 才能做到这一点。”

案例研究:机器人

NVIDIA Isaac 是一个功能强大的端到端平台,用于开发、仿真和部署机器人开发者使用的 AI 机器人。特别是对于移动机器人来说,可用的 DL 计算、确定性延迟和电池续航能力是非常重要的因素。这就是为什么将 DL 推理映射到 DLA 非常重要的原因。

NVIDIA Isaac 团队的一组工程师开发了一个使用 DNN 进行临近分割的库。邻近分割可用于确定障碍物是否在邻近场内,并避免在导航过程中与障碍物发生碰撞。他们在 DLA 上实现了 BI3D 网络,该网络可通过立体摄像头执行二进制深度分类。

31db9716-40dd-11ee-a2ef-92fbcf53809c.png

图 5. 近距离分割流水线

一个关键的 KPI 是确保从立体摄像头输入进行 30 帧/秒的实时检测。NVIDIA Isaac 团队将这些任务分配到 SoC 上,并将 DLA 用于 DNN,同时为在 GPU 上运行的硬件和软件提供功能安全多样性。想要了解更多信息,请访问NVIDIA Isaac ROS 邻近分割https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_proximity_segmentation

31f37854-40dd-11ee-a2ef-92fbcf53809c.gif

图 6. 使用 BI3D 对立体输入进行邻近分割

将 NVIDIA DeepStream 用于 DLA

探索 DLA 最快捷的方式是通过 NVIDIA DeepStream SDK,一个完整的流分析工具包。

如果你是一名视觉 AI 开发者,正在构建 AI 驱动的应用程序来分析视频和传感器数据,那么 DeepStream SDK 可以帮助您构建最佳的端到端工作流。对于零售分析、停车管理、物流管理、光学检测、机器人技术和体育分析等云端或边缘用例,DeepStream 可让您不费吹灰之力就能使用整个 SoC,特别是 DLA。

例如,您可以使用下表中突出显示的 Model Zoo 中的预训练模型在 DLA 上运行。在 DLA 上运行这些网络就像设置一个标志一样简单。想要了解更多信息,请访问如何使用 DLA 进行推理https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_Quickstart.html#using-dla-for-inference

32dc432c-40dd-11ee-a2ef-92fbcf53809c.png

表 2. Model Zoo 网络样本

及其在 DLA 上的吞吐量

开始使用深度学习加速器

准备好深入了解了吗?有关详细信息,请参阅以下资源:

  • Jetson DLA 教程演示了基本的 DLA 工作流,帮助您开始将 DNN 部署到 DLA:https://github.com/NVIDIA-AI-IOT/jetson_dla_tutorial

  • DLA-SW GitHub存储库中有一系列参考网络,您可以使用它们来探索在 Jetson Orin DLA 上运行 DNN:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/main/scripts/prepare_models

  • 示例页面提供了关于如何使用 DLA 充分利用 Jetson SoC 的其他示例和资源:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/

  • DLA 论坛有其他用户的想法和反馈:https://forums.developer.nvidia.com/tag/dla

SIGGRAPH 2023

NVIDIA 精彩发布

SIGGRAPH 2023 | NVIDIA 主题演讲重磅发布精彩回顾,探索 AI 无限未来!

敬请持续关注...

SIGGRAPH 2023 NVIDIA 主题演讲中文字幕版已上线 !扫描下方海报二维码,或点击“阅读原文”即可观看,与 NVIDIA 创始人兼首席执行官黄仁勋一起探索 AI 的未来!


原文标题:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3330

    浏览量

    87781

原文标题:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    用于并行采样的EVADC同步转换,如何在最大化采样率的同时最大限度地减少抖动?

    我的应用程序中,HSPDM 触发 EVADC 同时对两个通道进行采样。 我应该如何配置 EVADC 以最大限度地减少采样抖动并最大限度提高采样率? 在用户手册中,它提到 SSE=
    发表于 01-18 07:59

    如何最大限度减小电源设计中输出电容的数量和尺寸?

    如何最大限度减小电源设计中输出电容的数量和尺寸?
    的头像 发表于 12-15 09:47 212次阅读
    如何<b class='flag-5'>最大限度</b>减小电源设计中输出电容的数量和尺寸?

    最大限度提高高压转换器的功率密度

    电子发烧友网站提供《最大限度提高高压转换器的功率密度.doc》资料免费下载
    发表于 12-06 14:39 308次下载

    最大限度保持系统低噪声

    最大限度保持系统低噪声
    的头像 发表于 11-27 16:58 190次阅读
    <b class='flag-5'>最大限度</b>保持系统低噪声

    最大限度提高∑-∆ ADC驱动器的性能

    电子发烧友网站提供《最大限度提高∑-∆ ADC驱动器的性能.pdf》资料免费下载
    发表于 11-22 09:19 0次下载
    <b class='flag-5'>最大限度</b><b class='flag-5'>提高</b>∑-∆ ADC驱动器的<b class='flag-5'>性能</b>

    利用 NVIDIA Jetson 实现生成式 AI

    上以交互速率运行的 Llama-2-70B 模型。 图 1. 领先的生成式 AI 模型在  Jetson AGX Orin 上的推理性能 如要在 Jetson 上快速测试最新的模型和
    的头像 发表于 11-07 21:25 488次阅读
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 实现生成式 AI

    最大限度地减少SIC FETs EMI和转换损失

    最大限度地减少SIC FETs EMI和转换损失
    的头像 发表于 09-27 15:06 255次阅读
    <b class='flag-5'>最大限度</b>地减少SIC FETs EMI和转换损失

    切换以最大限度地利用SAN

    电子发烧友网站提供《切换以最大限度地利用SAN.pdf》资料免费下载
    发表于 09-01 11:23 0次下载
    切换以<b class='flag-5'>最大限度</b>地利用SAN

    基于NVIDIA® JetsonOrin的凌华科技ROScube-X RQX-59系列,重新定义 AI 性能

    相比上一代产品,提供 6 倍的 AI 性能,突破性的 RQX-59 系列,为您的机器人和自动驾驶解决方案带来巨大变革 ROScube-X RQX-59系列基于NVIDIA® Jetson™ AGX
    发表于 08-08 14:18 483次阅读
    基于<b class='flag-5'>NVIDIA</b>® <b class='flag-5'>Jetson</b>™ <b class='flag-5'>Orin</b>的凌华科技ROScube-X RQX-59系列,重新定义 AI <b class='flag-5'>性能</b>

    最大限度提高数据库效率和性能VMware环境使用32G NVMe光纤渠道

    电子发烧友网站提供《最大限度提高数据库效率和性能VMware环境使用32G NVMe光纤渠道.pdf》资料免费下载
    发表于 08-07 10:10 0次下载
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>数据库效率和<b class='flag-5'>性能</b>VMware环境使用32G NVMe光纤渠道

    安提国际推出基于NVIDIA Jetson Orin的新型无风扇边缘AI系统

    新北市2023年8月3日 /美通社/ -- 安提国际推出了基于NVIDIA Jetson Orin系统模块(system-on-module;SoM)的全新无风扇边缘计算系统。这些具紧凑硬件结构
    的头像 发表于 08-04 10:41 377次阅读

    Cortex-M如何最大限度提高SoC设计的能效端点

    随着现代微控制器和SoC变得越来越复杂,设计者面临着最大化能源效率,同时实现更高水平的集成。最大限度提高能量低功耗SoC市场中,多个功率域的使用被广泛采用。
    发表于 08-02 06:34

    利用深度学习模型最大限度提高外显子组测序分析的准确性

    使用 NVIDIA Parabricks ,通过深度学习加速整个外显子组分析,降低 70% 的成本
    的头像 发表于 07-05 16:30 315次阅读
    利用<b class='flag-5'>深度</b><b class='flag-5'>学习</b>模型<b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>外显子组测序分析的准确性

    利用 NVIDIA Jetson 将 AI 学习延展至边缘

    .com/zh-cn/jetson/edu/ )。自从 10 年前首次发布以来, NVIDIA Jetson 平台 已经为全球嵌入式计算和边缘 AI 设立了标准。这些用于深度
    的头像 发表于 06-13 20:55 384次阅读
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 将 AI <b class='flag-5'>学习</b>延展至边缘

    NVIDIA 推出 Jetson AGX Orin 工业级模块助力边缘 AI

    Jetson 边缘 AI 和机器人平台 ,您可以在此类复杂的环境中部署 AI 和传感器融合算法。 NVIDIA 在 COMPUTEX 2023 上发布了全新 Jetson AGX Orin
    的头像 发表于 06-05 10:45 803次阅读
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Jetson</b> AGX <b class='flag-5'>Orin</b> 工业级模块助力边缘 AI