用于工业AI的Jetson AGX Xavier模块-电子发烧友网

工业物联网架构师花了数年时间才得出结论，边缘需要数据中心级的性能，以实现高效分析、提高安全性和降低网络成本。在人工智能和机器学习领域，传感器设备内部或附近对高端处理能力的需求从一开始就很明显。

考虑到即使是简单的自主机器（我知道这是矛盾的说法）也需要大量的计算能力来运行神经网络来执行障碍物检测、识别和避免等功能。例如，京东和菜鸟等公司生产的自动送货车需要大约每秒 30 兆次运算（TOPS）的处理性能，而雅马哈正在开发的自动驾驶检查无人机需要大约 20 兆次运算（TOPS）的处理性能。

当然，这对嵌入式和工业工程师提出了一个经典的设计挑战：平衡每瓦性能。性能太低，应用程序失败。功耗太大，自主机器必须连接到持续的电源。

随着NVIDIA 的 Jetson AGX Xavier 模块的发布，这种情况正在改变。

服务器级性能，嵌入式功耗

Jetson AGX Xavier 核心的 Xavier SoC 包含大量异构处理性能，适用于人工智能驱动的机器人应用程序，包括：

512 核 Volta GPU，带有 64 个 TensorCore

八核、64 位基于 Arm 的 Carmel CPU

双 NVDLA（NVIDIA 深度学习加速器）引擎

双 7 路 VLIW 视觉加速器引擎

这代表 Jetson AGX 模块的性能高达 32 TOPS，尺寸为 87 mm x 100 mm。如上图所示，该芯片还包括一个 256 位 LPDDR4X 接口，能够以 137 GBps 的速度将数据传输到模块上的 16 GB DRAM，用于与 AI 工作负载相关的频繁读写。

基本上，Jetson AGX Xavier 以嵌入式模块形式提供服务器级性能。然而，同样重要的是，该模块的功耗仅为 10W，或与台式风扇差不多。用户可将操作模式配置为 10W、15W 或 30W，NVIDIA 报告称每瓦性能（PPW）的最佳点在 15W 左右。即使在那个水平（大约相当于蓝光播放器的功耗），Jetson AGX Xavier 在推理性能和能源效率方面也大大超过了其前身 Jetson TX2 和 Intel Core i7 + GTX 1070 显卡。

Jetson AGX Xavier：引擎盖下

Jetson AGX Xavier 的多项功能可实现这种类型的每瓦性能，从基础芯片架构开始。虽然 SoC 上的每个内核都有自己的内存，但内存是离散 SoC 模块之间的零内存复制。虽然 AGX Xavier 模块确实通过外部 16 GB LPDDR4X DRAM 提供共享内存，但片上数据只是通过管道传递到必要的处理核心。

架构的异构性也提高了效率，因为工作负载可以在最适合任务的架构上执行。这方面的一个例子是片上加速引擎，它可以卸载 Volta GPU，以便它可以专注于更复杂或用户定义的任务。例如，在以 8 位分辨率推断固定功能卷积神经网络（CNN）时，NVDLA 引擎可提供高达 5 TOPS 的性能，以 16 位分辨率推断 2.5 TFLOPS 时，功耗在 0.5W 和 1.5W 之间。

同时，Carmel CPU 内核可以保留用于通用计算任务。

JetPack 简化了深度学习编程的复杂性

Jetson AGX 系列运行 Linux，这在工业嵌入式系统中变得越来越普遍。许多希望利用 Jetson AGX Xavier 性能的工业和嵌入式开发人员可能不太熟悉的是对 GPU 和/或深度学习加速器进行编程。幸运的是，NVIDIA JetPack 4.1.1 软件开发套件（SDK）在CUDA Toolkit中提供了一揽子 API、嵌入式库以及与常用语言的集成，因此您无需了解如何编程 GPU对 GPU 进行编程。

最新JetPack版本中的一些软件工具包括：

Linux For Tegra R31.0.1 （K4.9）

CUDA 工具包 10.0

cuDNN 7.3

张量RT 5.0 GA

OpenCV 3.3.1

OpenGL 4.6 / GLES 3.2

伏尔甘 1.1

多媒体 API R31.1

阿格斯 0.97 相机 API

TensorRT 5.0 包中提供的 API 也简化了对 DLA 进行编程以执行神经网络工作负载。例如，_setDeviceType（）和 setDefaultDeviceType（）命令可用于在 GPU 或任一 DLA 上执行特定的神经网络层或层，而像 _allowGPUFallback（）这样的命令可让工作负载在 DLA 不支持的情况下恢复到 GPU 。

此外，DeepStream 3.0 SDK 支持 Jetson AGX Xavier，该 SDK 利用 TensorRT、CUDA、多媒体和成像 API 来加速视频分析应用程序的开发。

当然，低级 CUDA 编程是另一种选择。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉