0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Xavier的硬件架构特性!Xavier推理性能评测

NVIDIA英伟达企业解决方案 来源:lp 2019-04-17 16:55 次阅读

01

背景

如果把信息科技产业划分为三个时代:PC 时代、移动互联网时代和人工智能AI)时代。目前,我们处于移动互联网时代的末期和下一个时代的早期,即以深度神经网络算法为核心的AI 时代。

深度神经网络模拟人类大脑的工作原理,是近年来机器学习领域最令人瞩目的方向。2006年深度学习泰斗Geoffrey Hinton提出了基于“逐层训练”和“精调”的两阶段策略,解决了深度神经网络中参数训练的难题后,学术界和工业界对深度神经网络的研究热情高涨,并逐渐在语音识别、图像识别、自然语言处理等领域取得突破性进展。2012年深度卷积神经网络在ImageNet图像分类竞赛中取得了世界第一,标志着端到端的方法取得了超越手工设计特征的传统方法。此后深度神经网络的发展进入了快车道。2016年基于深度学习的AlphaGo打败了围棋世界冠军李世石,同度举办的人工智能知名学术会议CVPR、NIPS、AAAI和ICLR上深度神经网络的主题占主导地位。2017年以深度神经网络为核心的DeepStack算法在德州扑克游戏中击败了人类职业玩家。2018年,人工智能的芯片已经应用于云计算和移动终端中。目前,深度神经网络的研究向着更深更广的方向前进,一方面深度神经网络的理论研究越来越深入,另外一方面如何开发基于深度神经网络的智能系统成为关键,特别是如何将人工智能技术与边缘计算结合起来。

云计算作为一种计算模式已经渗透进我们日常生活之中,但是有很多很多应用场合,由于网络不可用、网络带宽不足和网络延迟大等原因使得基于云计算的模式不能满足需求,这就是边缘计算覆盖的领域。中国边缘计算产业联盟(Edge Computing Consortium,ECC)定义的边缘计算是指在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的开放平台,就近提供边缘智能服务,满足业务在敏捷联接、实时业务、数据优化和应用智能等方面的关键需求。由此可见要想在边缘计算中部署人工智能应用,必须要有高性能低功耗的超级计算平台。NVIDIA最近发布的Jetson AGX Xavier就是在边缘计算场景中部署人工智能应用的一个利器。

嵌入式超级计算机Jetson AGX Xavier可以用于自主物流车、机器人无人机和其他智能机器,从而加速制造、物流、零售、服务、农业、医疗等产业的智能化发展,为智能城市的发展做出贡献。

02

Xavier的硬件架构特性

Xavier是最新一代NVIDIA业界领先的嵌入式Linux高性能计算机,主要包括一个8核NVIDIA Carmel ARMv8.2 64位CPU,由8个流多处理器组成的512核Volta架构的GPU,支持并行计算语言CUDA 10,支持多精度计算,FP16计算能力为11 TFLOPS(每秒浮点运算次数),INT8为22 TOPS。64个Tensor核心, 16GB 256位LPDDR4x,双深度学习加速器 (DLA)引擎,NVIDIA视觉加速器引擎,高清视频编解码器,Xavier集成的Volta GPU,具体参数如表1所示,GPU架构如图1所示。

用户可根据应用需要配置Xavier工作在10W、15W和30W的模式,凭借多种工作模式,Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上,性能超过20倍。

表1 Xavier主要参数

图1 Xavier Volta GPU架构

Xavier内置的 Tensor Core支持混合精度计算。可以完成以下的融合乘法加法:执行两个4*4 FP16矩阵相乘,将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵。深度神经网络最耗时的卷积操作在训练和推理时都可以转成上述的矩阵乘法,Tensor Core极大的提高了计算效率。

Xavier具有两个NVIDIA 深度学习加速器(DLA)引擎,可以进行高性能的深度神经网络推理计算,其结构如图2所示。这每个DLA具有高达5 TOPS INT8或2.5 TFLOPS FP16计算性能,功耗仅为0.5-1.5W。DLA支持加速CNN层,例如卷积、反卷积、激活函数、最小/最大/平均池化、局部响应归一化和全连接层。

图2 深度学习加速器(DLA)架构

03

Xavier的软件平台

Xavier主要用于边缘计算的深度神经网络推理,其支持Caffe、Tensorflow、PyTorch等多种深度学习框架导出的模型。为进一步提高计算效率,还可以使用TensorRT对训练好的模型利用计算图优化、算子融合、量化等方法精简进行优化。Xavier通过TensorRT使开发者能充分的利用GPU中的Tensor core和DLA单元等计算模块。

04

Xavier推理性能评测

4.1 测试平台参数

为了测试Xavier的推理性能,我们使用目标检测算法分别在GeForce 840M、Jetson TX2和Xavier三个计算平台上进行测试。Jetson TX2工作在默认的MAXP_CORE_ARM模式,Xavier工作在默认的MODE_15W模式。三个计算平台的关键技术参数如表2所述,测试实验场景如图3所示。

表2 三个测试平台参数

图3 测试环境实景

(作者朱虎明实景拍摄,授权NVIDIA发布)

4.2 Faster R-CNN目标检测算法介绍

我们利用Faster R-CNN目标检测算法测试Xavier的推理性能。Faster R-CNN是Fast R-CNN和RPN(区域候选网络)的融合。RPN使用全卷积网络(FCN,fully-convolutional network)可以针对生成检测候选框的任务端到端地训练,能够同时预测出目标的边界和分数。这里使用基于VGG16的Faster R-CNN网络,其算法主要流程如4所示。Faster R-CNN卷积网络的结构主要包括:①13个conv层:kernel_size=3,pad=1,stride=1;②13个relu层:激活函数,不改变图片大小;③4个pooling层:kernel_size=2,stride=2;pooling层会让输出图片是输入图片的1/2;

4.3 测试结果介绍

测试时在TensorRT给出的示例代码sampleFasterR-CNN.cpp上找到推理函数,在其前后添加时间函数gettimeofday(),计算其推理时间。在不同的硬件平台上重复实验五次取时间平均值,结果如表3所示。

从实验结果表可以看出来,Xavier在使用TensorRT进行推理时,性能相比Jetson TX2提升了不少。需要注意的是Xavier使用的TensorRT版本相比TX2版本在软件架构上有很大的变化,特别是结构性更好。另外,由于时间的原因,我们没有测试DLA加速的效果。

表3 不同平台目标检测计算性能对比

05

总结

Xavier平台配备了完整的 AI 开发软件包NVIDIA JetPack SDK,包括最新版本的 CUDA、cuDNN 和 TensorRT等软件。这些开发软件使用起来非常方便,再加上Xavier 平台强大的推理计算能力,Xavier必将在制造、物流、零售、服务等边缘计算人工智能应用场景大放异彩。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98720
  • 人工智能
    +关注

    关注

    1776

    文章

    43824

    浏览量

    230584
  • 硬件架构
    +关注

    关注

    0

    文章

    24

    浏览量

    9027

原文标题:开发者实测:NVIDIA Jetson AGX Xavier开发套件使用初体验

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔FPGA 助力Microsoft Azure机器学习提供AI推理性能

    Machine Learning SDK 相集成以供预览。客户可以使用 Azure 大规模部署的英特尔® FPGA(现场可编程逻辑门阵列)技术,为其模型提供行业领先的人工智能 (AI) 推理性能
    的头像 发表于 05-16 17:25 6209次阅读

    NVIDIA扩大AI推理性能领先优势,首次在Arm服务器上取得佳绩

    最新MLPerf基准测试表明,NVIDIA已将其在AI推理性能和能效方面的高标准扩展到Arm以及x86计算机。
    发表于 09-23 14:18 2533次阅读
    NVIDIA扩大AI<b class='flag-5'>推理性能</b>领先优势,首次在Arm服务器上取得佳绩

    NVIDIA打破AI推理性能记录

     NVIDIA凭借A100进一步扩大了在MLPerf基准测试中的领先优势,实现了比CPU快237倍的AI推理性能,助力企业将AI研究转化为生产力。
    发表于 10-22 14:07 727次阅读

    NVIDIA 在首个AI推理基准测试中大放异彩

    首个独立AI推理基准测试 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市场中最大、同时也是最具竞争力的领域,业内此前一直希望能够有一套客观的推理性能测试指标。在参与
    发表于 11-08 19:44

    JETSON AGX Xavier的相关资料下载

    嵌入式AI 开发板 JETSON AGX Xavier使用刷机+环境搭建嵌入式大牛刷机指南pytorch-craft项目工程测试嵌入式大牛测试指南yolov3上板测试嵌入式大牛测试指南
    发表于 12-14 07:04

    Xavier入门踩坑PWM问题解决方法

    Xavier入门踩坑PWM问题解决方法GPIO问题解决方法PWM问题由于需要做外部传感器的触发同步,所以需要一个方波,考虑用Xavier的PWM,结果折腾了好久发现需要配置内部硬件,折腾了好久也没
    发表于 01-10 08:11

    jetson xavier nx 串口通信 只能收不能发

    各位大佬i,我最近在用jetson xavier nx与stm32进行串口通信,首先我先将nx板与电脑通过usb连接,通过串口助手进行测试,开发板使用cutecom,电脑使用xcom,前几天测试没啥
    发表于 09-19 18:25

    jetson xavier nx 串口通信,只能收不能发,如何解决?

    各位大佬,我最近在用jetson xavier nx与stm32进行串口通信,首先我先将nx板与电脑通过usb连接,通过串口助手进行测试,开发板使用cutecom,电脑使用xcom,前几天测试没啥
    发表于 09-20 14:55

    怎么做才能通过Jetson Xavier AGX构建android图像呢?

    我正在使用 Nvidia 的 Jetson Xavier AGX 按照“android 用户指南”为 imx8 qm Mek 套件构建 android 图像(android 13)。当我运行命令
    发表于 06-07 08:58

    求助,为什么将不同的权重应用于模型会影响推理性能

    生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myriad X 上的推理性能
    发表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能
    发表于 08-15 06:58

    英伟达发布全新AI芯片Jetson Xavier

    近日,英伟达正式发布了一款全新AI芯片—Jetson Xavier,Jetson Xavier作NVIDIA Isaac平台的核心,是全球首款专为机器人设计的计算机。该公司CEO黄仁勋在周一的新闻发布会上表示:“这台小电脑,将成为未来机器人的大脑”。
    发表于 06-29 10:30 9885次阅读

    英特尔FPGA为人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供预览。客户可以使用 Azure 大规模部署的英特尔 FPGA(现场可编程逻辑门阵列)技术,为其模型提供行业领先的人工智能 (AI) 推理性能。 “作为一家整体技术提供商,我们通过与 Microsoft 密切合作为人工智能提供支持。
    发表于 05-20 00:10 2884次阅读

    Nvidia 通过开源库提升 LLM 推理性能

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件一轮又一轮改进
    的头像 发表于 10-23 16:10 322次阅读

    用上这个工具包,大模型推理性能加速达40倍

    作者: 英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊 编者按: 只需不到9行代码, 就能在CPU上实现出色的LLM推理性能。 英特尔  Extension for Transformer 创新
    的头像 发表于 12-01 20:40 632次阅读
    用上这个工具包,大模型<b class='flag-5'>推理性能</b>加速达40倍