0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Riva可快速开发出GPU加速对话式AI应用

科技绿洲 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-04-29 14:33 次阅读

AI 机器人和其他自主机器的开发和部署步伐不断加快。随着新一代应用的出现,需要大幅提升 AI 的计算性能才能处理实时并行运行的多模态 AI 应用。

在零售店、食品配送、医院、仓库、工厂车间和其他商业应用中,人类与机器人的互动日益增加。这些自主机器人必须同时执行 3D 感知、自然语言理解、路径规划、避障、位姿估测等行为。这些行为既需要超高的计算性能,还需要为每个应用训练高度准确的神经模型。

NVIDIA Jetson AGX Orin 模块是 NVIDIA Jetson 家族的最新成员并且在其中具有最强大的性能。该模块具有异常强大的性能和领先的能效,可以运行所有 NVIDIA AI 软件堆栈并驱动新一代高要求边缘 AI 应用。

Jetson AGX Orin 和 Jetson Orin NX 系列

在 2022 年春季 GTC 大会上,我们宣布在今年第四季度推出四款 Jetson Orin 模块。Jetson Orin 模块的最高性能达到每秒 275 万亿次运算(TOPS),可在边缘运行服务器级别的 AI 并且具有端到端应用流水线加速功能。与 Jetson Xavier 模块相比,Jetson Orin 为现代 AI 应用带来了更高的性能、能效和推理能力。

Jetson AGX Orin 系列包括 Jetson AGX Orin 64GB 和 Jetson AGX Orin 32GB 模块。

Jetson AGX Orin 64GB 最高算力为 275 TOPS,功率配置范围 15W 至 60W。

Jetson AGX Orin 32GB 最高算力为 200 TOPS,功率配置范围 15W 至 40W。

这些模块具有相同的紧凑外型,与 Jetson AGX Xavier 系列模块引脚兼容,性能提升了 8 倍或在相同的价格下提升了 6 倍。

边缘和嵌入式系统传感器数量、性能和带宽继续增加。Jetson AGX Orin 系列不仅提供用于处理这些传感器的额外算力,而且还增加了 I/O:

多达22条PCIe Gen4通道

4个10Gb以太网

速度更快的CSI通道

采用64GB eMMC 5.1的双倍存储空间

1.5倍内存带宽

USB 3.2、UFS、MGBE 和 PCIe 共享 UPHY 通道。关于所支持的UPHY配置,请参见设计指南(https://developer.nvidia.com/embedded/downloads#?search=Jetson%20AGX%20Orin%20Product%20Design%20Guide)。

NVIDIA Orin NX 系列包括 Jetson Orin NX 16GB 和 Jetson Orin NX 8GB,前者的最大 AI 算力为 100 TOPS,后者的最大 AI 算力为 70 TOPS。该系列采用与 Jetson Xavier NX 类似的设计理念。我们将 NVIDIA Orin 架构封装到最小的 Jetson 外形尺寸中(即 260 针SODIMM)并且实现了更低的功耗。

您可以在无人机、手持设备等新一代小尺寸产品中实现这一更加强大的性能。Jetson Orin NX 16GB 的功率配置范围是 10W 至 25W,Jetson Orin NX 8GB 的功率配置范围是 10W 至 20W。

Orin NX 系列的外形与 Jetson Xavier NX 系列兼容,性能是后者的 5 倍或在相同价格下是后者的 3 倍。Orin NX 系列还提供额外的高速 I/O 能力,有多达 7 个 PCIe 通道和 3 个 10Gbps USB 3.2 接口。您可以使用额外的 PCIe 通道连接外部 NVMe 来扩展存储空间。

Jetson AGX Xavier 围绕 NVIDIA Xavier 系统级芯片设计,NVIDIA Xavier 是我们为自主机器重新开发的第一个架构。NVIDIA Orin 架构将此类产品提升到一个新的级别,我们在此基础上不断开发出能力、性能与能效更强大的系统级芯片。

Jetson Orin 模块包含以下内容:

NVIDIA Ampere 架构 GPU,具有多达 2048 个 CUDA 核和多达 64 个 Tensor 核

多达 12 个 Arm A78AE CPU

两个新一代深度学习加速器(DLA)

计算机视觉加速器

各种其他用于减轻GPU和CPU处理器的负担:

视频编码器

视频解码器

视频图像合成器

图像信号处理器

传感器处理引擎

音频处理引擎

与其他 Jetson 模块一样,Jetson Orin 采用了系统级模块(SOM)设计。所有处理、内存和电源轨都包含在模块上。所有高速 I/O 均通过一个 699 针的连接器(Jetson AGX Orin 系列)或一个 260 针的 SODIMM 连接器(Jetson Orin NX 系列)提供。这种 SOM 设计能够让您轻松地将模块集成到您的系统设计中。

Jetson AGX Orin 开发者套件

在 GTC 2022 上,NVIDIA 还宣布推出 Jetson AGX Orin 开发者套件。该开发套件包含了快速启动和运行所需的一切工具。它包括一个最高性能的 Jetson AGX Orin 模块并运行全球最先进的深度学习软件堆栈。该套件提供创建当前和未来复杂 AI 解决方案所需的灵活性。

凭借紧凑的尺寸、高速接口和大量连接器,该开发者套件非常适合用于制造、物流、零售、服务、农业、智慧城市、医疗、生命科学等领域的高级 AI 机器人和边缘应用原型设计。

Jetson AGX Orin开发者套件包含:

NVIDIA Ampere 架构 GPU 和 12 核 Arm Cortex-A78AE 64 位 CPU,以及新一代深度学习和视觉加速器

高速 I/O、204.8 GB/s 内存带宽和 32 GB DRAM,能够为多个并行 AI 应用流水线提供支持

强大的 NVIDIA AI 软件堆栈并支持 SDK 和软件平台,包括:

NVIDIA JetPack

NVIDIA Riva

NVIDIA DeepStream

NVIDIA Isaac

NVIDIA TAO

Jetson AGX Orin 开发者套件运行最新的 NVIDIA JetPack 5.0软件。NVIDIA JetPack 5.0 支持通过 Jetson AGX Orin 开发者套件模拟 Jetson Orin NX 和 Jetson AGX Orin 系列模块的性能和时钟频率。您今天就可以开始开发这些模块中的任何一个。

Jetson AGX Orin 开发者套件通过 NVIDIA 全球授权经销商销售。您可以根据入门指南开始使用该套件。

一流的性能

Jetson Orin 大幅提升新一代应用的性能。通过使用 Jetson AGX Orin 开发者套件,我们测得了我们高精度、生产级、预训练计算机视觉和对话式 AI 模型性能的几何平均值。测试包括以下基准:

用于人员检测的 NVIDIA PeopleNet

NVIDIA ActionRecognitionNet 2D 和 3D 模型

用于车牌识别的 NVIDIA LPRNet

用于多人位姿估测的 NVIDIA DashcamNet、BodyPoseNet

用于语音识别的 Citrinet-1024

用于自然语言处理的 BERT-base

用于文本-语音转换的 FastPitchHifiGanE2E

在 NVIDIA JetPack 5.0 开发者预览版中,Jetson AGX Orin 的性能比 Jetson AGX Xavier 提高了 3.3 倍。随着今后的软件改进,我们预计将实现接近 5 倍的性能提升。自首个支持该软件的版本—— NVIDIA JetPack 4.1.1 开发者预览版以来,Jetson AGX Xavier 的性能已提高了 1.5 倍。

这些基准测试已在我们的 Jetson AGX Orin 开发者套件上运行。PeopleNet 和 DashcamNet 提供在 GPU 和两个 DLA 上同时运行密集模型的示例。DLA 可以用于卸载 GPU 上的一些 AI 应用,并且这一并行能力使它们能够并行运行。

PeopleNet、LPRNet、DashcamNet 和 BodyPoseNet 提供在 Jetson 上运行密集 INT8 基准测试的示例。ActionRecognitionNet 2D 和 3D 以及对话式 AI 基准测试提供密集 FP16 性能的示例。

此外,Jetson Orin 继续提高边缘 AI 的标杆,在最新 MLPerf 行业推理基准测试中进一步巩固 NVIDIA 的整体领先优势。在此次 MLPerf 基准测试中,与 Jetson AGX Xavier 之前的结果相比,Jetson AGX Orin 的性能提高了 5 倍,能效平均提高了 2 倍。

通过Jetson软件加快产品上市时间

依靠强大的 NVIDIA 软件,Jetson Orin 实现了领先的性能和能效。这些软件被部署在 GPU 加速数据中心、超大规模服务器和高性能 AI 工作站中。

NVIDIA JetPack 是 Jetson 平台的基础 SDK。NVIDIA JetPack 为硬件加速边缘AI的开发提供了一个完整的开发环境。Jetson Orin 得到了 NVIDIA JetPack 5.0 的支持,后者包括:

LTS 内核 5.10

基于 Ubuntu 20.04 的根文件系统

基于 UEFI 的引导程序

带有 CUDA 11.4、TensorRT 8.4 和 cuDNN 8.3 的最新计算堆栈

NVIDIA JetPack 5.0 还支持 Jetson Xavier 模块。

为了让您在 Jetson 平台上能够快速开发全面加速的应用,NVIDIA 为各种不同的用例提供了应用框架:

使用 DeepStream 快速开发和部署视觉 AI 应用和服务。DeepStream 提供超越推理的硬件加速,它能为端到端 AI 流水线提供硬件加速插件。

NVIDIA Isaac 提供硬件加速 ROS 程序包,使 ROS 开发者更容易构建高性能机器人解决方案。

Omniverse 驱动的 NVIDIA Isaac Sim 能够创造高度逼真、达到物理级准确的虚拟环境,该工具可用于开发、测试和管理 AI 机器人。

NVIDIA Riva 为自动语音识别(ASR)和文本-语音转换(TTS)提供最先进、可以轻松自定义的预训练模型。这些模型使您能够快速开发出 GPU 加速对话式 AI 应用。

为了加快生产级、高精度 AI 模型的开发,NVIDIA 提供多种工具用于生成训练数据、训练和优化模型以及快速创建可立即部署的 AI 模型。

用于生成合成数据的 NVIDIA Omniverse Replicator 能够创建促进模型训练的高质量数据集。您可以使用 Omniverse Replicator 创建大型、多样化的合成数据集,这些数据集在现实世界中不仅难以创建,有时甚至不可能创建。使用合成数据和真实数据来训练模型可以显著提高模型的准确率。

NGC 上的 NVIDIA 预训练模型为您提供用于各种用例的高精度优化模型和模型架构。这些预训练模型为生产级模型。通过 NVIDIA TAO(训练-调整-优化)工作流程,您可以使用自己的真实或合成数据训练并进一步自定义这些模型,最终快速构建一个准确、可立即部署的模型。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87590
  • NVIDIA
    +关注

    关注

    14

    文章

    4588

    浏览量

    101702
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4415

    浏览量

    126665
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264031
收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 152次阅读

    NVIDIA和谷歌云宣布开展一项新的合作,加速AI开发

    NVIDIA 和谷歌云宣布开展一项新的合作,以帮助全球初创企业加速创建生成式 AI 应用和服务。
    的头像 发表于 04-11 14:03 158次阅读

    NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

    NVIDIA 在 GDC 2024 大会上宣布,Inworld AI 等领先的 AI 应用程序开发者,正在使用 NVIDIA 数字人技术
    的头像 发表于 04-09 10:08 209次阅读
    <b class='flag-5'>NVIDIA</b>数字人技术<b class='flag-5'>加速</b>部署生成式<b class='flag-5'>AI</b>驱动的游戏角色

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 208次阅读

    NVIDIA 初创加速计划 Omniverse 加速

    的重要力量。基于 NVIDIA 全栈式 AI 计算平台和 Omniverse TM 平台上的生成式 AI 创作实践,让企业、开发者能够了解可落地的生成式
    的头像 发表于 12-04 20:35 398次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在GPU
    的头像 发表于 11-09 16:46 545次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    生成式 AI 和大语言模型(LLM)不断推动突破性创新,训练和推理对算力的需求也随之急剧上升。 这些现代生成式 AI 应用需要全栈加速计算,首先要有能够快速、准确处理大量工作负载的先进
    的头像 发表于 09-25 20:40 283次阅读
    Oracle 云基础设施提供新的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b>计算实例

    SIGGRAPH 2023 | NVIDIA AI Workbench 助力全球企业加速采用自定义生成式 AI

    2023 年 8 月 8 日 — NVIDIA 发布 NVIDIA AI Workbench 。这个统一、易于使用的工具套件使开发者能够在 PC 或工作站上
    的头像 发表于 08-09 19:10 282次阅读

    SIGGRAPH 2023 | NVIDIA 与全球数据中心系统制造商大力推动 AI 与工业数字化的发展

    OVX 服务器采用全新 NVIDIA GPU加速训练和推理以及图形密集型工作负载,将通过戴尔科技、慧与、联想、超微等公司提供。 洛杉矶 — SIGGRAPH — 太平洋时间 2023
    的头像 发表于 08-09 19:10 282次阅读

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗
    的头像 发表于 08-01 14:46 295次阅读

    NVIDIA 人工智能开讲 | 对话AI 开发利器 — NVIDIA NeMo

    ”两大音频 APP上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! NVIDIA NeMo 是一个用于构建先进的对话AI
    的头像 发表于 07-10 20:25 356次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | <b class='flag-5'>对话</b>式 <b class='flag-5'>AI</b> <b class='flag-5'>开发</b>利器 — <b class='flag-5'>NVIDIA</b> NeMo

    NVIDIA 邀您参加 —— AI 软硬件协同开发技术交流与人才发展分享会

    大模型时代,NVIDIA 渴望携志同者一起前进,与道合者一起奔跑,共同创造更多可能!NVIDIA GPU 计算专家团队(DevTech)与 GPU 计算架构团队招贤纳士! 
    的头像 发表于 06-26 19:35 261次阅读
    <b class='flag-5'>NVIDIA</b> 邀您参加 —— <b class='flag-5'>AI</b> 软硬件协同<b class='flag-5'>开发</b>技术交流与人才发展分享会

    NVIDIA “魔盒”有哪些“内涵”

    飞凌AI边缘计算终端FCU3001采用 NVIDIA Jetson Xavier NX定制开发,先来一张产品开箱后的“全家福”: ​ AI 边缘计算终端FCU3001的体积非常小巧
    发表于 05-26 14:12

    NVIDIA 与微软合作加速企业就绪的生成式 AI

    NVIDIA AI Enterprise 与 Azure 机器学习集成,提供端到端云平台,供开发者构建、部署和管理大型语言模型的 AI 应用 微软 Build 大会——太平洋时间 20
    的头像 发表于 05-25 09:15 376次阅读
    <b class='flag-5'>NVIDIA</b> 与微软合作<b class='flag-5'>加速</b>企业就绪的生成式 <b class='flag-5'>AI</b>

    NVIDIA NeMo 如何支持对话AI 任务的训练与推理?

    开发和运行可落地的语音人工智能服务仍然是一项复杂而艰巨的任务,通常需要面临实时性、可理解性、自然性、低资源、鲁棒性等挑战。 本期分享我们邀请到了  NVIDIA 的解决方案架构师丁文 ,分享如何使用 NVIDIA NeMo 进
    的头像 发表于 05-11 20:16 624次阅读
    <b class='flag-5'>NVIDIA</b> NeMo 如何支持<b class='flag-5'>对话</b>式 <b class='flag-5'>AI</b> 任务的训练与推理?