0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于工业AI的Jetson AGX Xavier模块

星星科技指导员 来源:嵌入式计算设计 作者:Simon Holt 2022-06-08 14:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

工业物联网架构师花了数年时间才得出结论,边缘需要数据中心级的性能,以实现高效分析、提高安全性和降低网络成本。在人工智能机器学习领域,传感器设备内部或附近对高端处理能力的需求从一开始就很明显。

考虑到即使是简单的自主机器(我知道这是矛盾的说法)也需要大量的计算能力来运行神经网络来执行障碍物检测、识别和避免等功能。例如,京东和菜鸟等公司生产的自动送货车需要大约每秒 30 兆次运算 (TOPS) 的处理性能,而雅马哈正在开发的自动驾驶检查无人机需要大约 20 兆次运算 (TOPS) 的处理性能。

当然,这对嵌入式和工业工程师提出了一个经典的设计挑战:平衡每瓦性能。性能太低,应用程序失败。功耗太大,自主机器必须连接到持续的电源

随着NVIDIA 的 Jetson AGX Xavier 模块的发布,这种情况正在改变。

服务器级性能,嵌入式功耗

Jetson AGX Xavier 核心的 Xavier SoC 包含大量异构处理性能,适用于人工智能驱动的机器人应用程序,包括:

512 核 Volta GPU,带有 64 个 TensorCore

八核、64 位基于 Arm 的 Carmel CPU

双 NVDLA(NVIDIA 深度学习加速器)引擎

双 7 路 VLIW 视觉加速器引擎

这代表 Jetson AGX 模块的性能高达 32 TOPS,尺寸为 87 mm x 100 mm。如上图所示,该芯片还包括一个 256 位 LPDDR4X 接口,能够以 137 GBps 的速度将数据传输到模块上的 16 GB DRAM,用于与 AI 工作负载相关的频繁读写。

基本上,Jetson AGX Xavier 以嵌入式模块形式提供服务器级性能。然而,同样重要的是,该模块的功耗仅为 10W,或与台式风扇差不多。用户可将操作模式配置为 10W、15W 或 30W,NVIDIA 报告称每瓦性能 (PPW) 的最佳点在 15W 左右。即使在那个水平(大约相当于蓝光播放器的功耗),Jetson AGX Xavier 在推理性能和能源效率方面也大大超过了其前身 Jetson TX2 和 Intel Core i7 + GTX 1070 显卡。

pYYBAGKgQDeAcKYxAADtibAg8G4288.png

Jetson AGX Xavier:引擎盖下

Jetson AGX Xavier 的多项功能可实现这种类型的每瓦性能,从基础芯片架构开始。虽然 SoC 上的每个内核都有自己的内存,但内存是离散 SoC 模块之间的零内存复制。虽然 AGX Xavier 模块确实通过外部 16 GB LPDDR4X DRAM 提供共享内存,但片上数据只是通过管道传递到必要的处理核心。

架构的异构性也提高了效率,因为工作负载可以在最适合任务的架构上执行。这方面的一个例子是片上加速引擎,它可以卸载 Volta GPU,以便它可以专注于更复杂或用户定义的任务。例如,在以 8 位分辨率推断固定功能卷积神经网络 (CNN) 时,NVDLA 引擎可提供高达 5 TOPS 的性能,以 16 位分辨率推断 2.5 TFLOPS 时,功耗在 0.5W 和 1.5W 之间。

poYBAGKgQECARpmYAAFR4BDwBMw371.png

同时,Carmel CPU 内核可以保留用于通用计算任务。

JetPack 简化了深度学习编程的复杂性

Jetson AGX 系列运行 Linux,这在工业嵌入式系统中变得越来越普遍。许多希望利用 Jetson AGX Xavier 性能的工业和嵌入式开发人员可能不太熟悉的是对 GPU 和/或深度学习加速器进行编程。幸运的是,NVIDIA JetPack 4.1.1 软件开发套件 (SDK)在CUDA Toolkit中提供了一揽子 API、嵌入式库以及与常用语言的集成,因此您无需了解如何编程 GPU对 GPU 进行编程。

最新JetPack版本中的一些软件工具包括:

Linux For Tegra R31.0.1 (K4.9)

CUDA 工具包 10.0

cuDNN 7.3

张量RT 5.0 GA

OpenCV 3.3.1

OpenGL 4.6 / GLES 3.2

伏尔甘 1.1

多媒体 API R31.1

阿格斯 0.97 相机 API

TensorRT 5.0 包中提供的 API 也简化了对 DLA 进行编程以执行神经网络工作负载。例如,_setDeviceType() 和 setDefaultDeviceType() 命令可用于在 GPU 或任一 DLA 上执行特定的神经网络层或层,而像 _allowGPUFallback() 这样的命令可让工作负载在 DLA 不支持的情况下恢复到 GPU 。

此外,DeepStream 3.0 SDK 支持 Jetson AGX Xavier,该 SDK 利用 TensorRT、CUDA、多媒体和成像 API 来加速视频分析应用程序的开发。

当然,低级 CUDA 编程是另一种选择。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108377
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110291
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136212
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Cognex推出搭载NVIDIA Jetson技术的In-Sight® 6900视觉控制器

    近期,全球工业机器视觉领导者Cognex Corporation正式推出搭载NVIDIA Jetson技术的In-Sight® 6900视觉控制器,标志着工业检测设备正式迈入"模块化+
    的头像 发表于 05-08 10:15 1243次阅读

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    /2TB选项)实现快速读写,未来还可以通过转接卡扩展更高的带宽外设,如高速采集卡或另一块NPU模块。 2、双千兆网口 :在工业场景中,双网口通常用于 数据隔离 。例如,一个网口连接工业
    发表于 03-10 14:19

    如何在NVIDIA Jetson AGX Thor上部署1200亿参数大模型

    上一期介绍了如何在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服务,以及使用 Chatbox 作为前端调用 vLLM 运行的模型(上期文章链接)。本期
    的头像 发表于 12-26 17:06 5383次阅读
    如何在NVIDIA <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Thor上部署1200亿参数大模型

    如何在NVIDIA Jetson平台上运行最新的开源AI模型

    在小型、低功耗的边缘设备上运行先进的 AI 和计算机视觉工作流正变得越来越具有挑战性。机器人、智能摄像头和自主设备需要实时智能来感知、理解并做出反应,而无需依赖云端。NVIDIA Jetson 平台通过紧凑的 GPU 加速模块
    的头像 发表于 12-24 10:38 2045次阅读
    如何在NVIDIA <b class='flag-5'>Jetson</b>平台上运行最新的开源<b class='flag-5'>AI</b>模型

    NVIDIA Jetson系列开发者套件助力打造面向未来的智能机器人

    NVIDIA Jetson AGX Thor、AGX Orin 以及 Jetson Orin Nano Super 开发者套件,助力打造面向未来的智能机器人。
    的头像 发表于 12-13 10:20 3477次阅读

    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效
    的头像 发表于 11-13 14:08 4548次阅读
    如何在NVIDIA <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Thor上通过Docker高效部署vLLM推理服务

    NVIDIA Jetson AGX Thor Developer Kit开发环境配置指南

    NVIDIA Jetson AGX Thor 专为物理 AI 打造,与上一代产品 NVIDIA Jetson AGX Orin 相比,生成式
    的头像 发表于 11-08 09:55 7815次阅读
    NVIDIA <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Thor Developer Kit开发环境配置指南

    通过NVIDIA Jetson AGX Thor实现7倍生成式AI性能

    Jetson Thor 平台还支持多种主流量化格式,包括 NVIDIA Blackwell GPU 架构的新 NVFP4 格式,有助于进一步优化推理性能。该平台同时支持推测解码等新技术,为在边缘端加速生成式 AI 工作负载提供了新的途径。
    的头像 发表于 10-29 16:53 1784次阅读

    BPI-AIM7 RK3588 AI与 Nvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    套件 (100x80 毫米) 占用空间相同,与现有外壳兼容 Jetson Nano 兼容性 为 Jetson Nano 提供 5 V 和 12 V 电源输入 比较 8 GB ArmSoM RK3588 AI
    发表于 10-11 09:08

    NVIDIA Jetson AGX Thor开发者套件重磅发布

    开发者与未来创造者们,准备好迎接边缘AI的史诗级革新了吗?NVIDIA以颠覆性技术再次突破极限,正式推出Jetson AGX Thor开发者套件!作为继传奇产品Jetson
    的头像 发表于 08-28 14:31 1847次阅读

    基于 NVIDIA Blackwell 的 Jetson Thor 现已发售,加速通用机器人时代的到来

    ·专为物理 AI 和机器人打造的机器人计算机 NVIDIA Jetson AGX Thor 开发者套件和量产级模组,现已发售。 ·超过 200 万开发者正在使用 NVIDIA 的机器人技术栈,联影
    发表于 08-26 09:28 1399次阅读
    基于 NVIDIA Blackwell 的 <b class='flag-5'>Jetson</b> Thor 现已发售,加速通用机器人时代的到来

    NVIDIA Jetson AGX Thor开发者套件概述

    TFLOPS 的 AI 计算性能,从而轻松运行最新的生成式 AI模型,且功耗不超过 130 W。与 NVIDIA Jetson AGX Orin 相比,其
    的头像 发表于 08-11 15:03 2157次阅读

    NVIDIA Jetson + Isaac SDK 人形机器人方案全面解析

    Volta 6-core Carmel 21 10~15W 中性能服务型机器人 Jetson AGX Xavier 512-core
    的头像 发表于 07-30 16:12 2589次阅读

    Jetson平台核心组件BOM清单概览

    Jetson Xavier NX、Jetson AGX Orin)的核心BOM清单进行梳理。需要注意的是,NVIDIA官方并
    的头像 发表于 07-30 16:11 3665次阅读

    NVIDIA Jetson + Isaac SDK 在人形机器人领域的方案详解

    组件 描述 硬件平台(Jetson系列) 面向边缘AI和机器人开发的SoC模块,搭载GPU + ARM CPU,支持多种传感器和AI模型部署 软件平台(Isaac SDK / Isa
    的头像 发表于 07-30 16:05 4124次阅读