0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT的数据格式定义

星星科技指导员 来源:NVIDIA 作者:Ken He 2022-05-20 14:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TensorRT 支持不同的数据格式。有两个方面需要考虑:数据类型和布局。

数据类型格式

数据类型是每个单独值的表示。它的大小决定了取值范围和表示的精度,分别是FP32(32位浮点,或单精度),FP16(16位浮点或半精度),INT32(32位整数表示),和 INT8(8 位表示)。

布局格式

布局格式确定存储值的顺序。通常,batch 维度是最左边的维度,其他维度指的是每个数据项的方面,例如图像中的C是通道, H是高度, W是宽度。忽略总是在这些之前的批量大小, C 、 H和W通常被排序为CHW (参见图 1 )或HWC (参见图 2 )。

图1. CHW的布局格式:图像分为HxW矩阵,每个通道一个,矩阵按顺序存储;通道的所有值都是连续存储的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

图2. HWC的布局格式:图像存储为单个HxW矩阵,其值实际上是 C 元组,每个通道都有一个值;一个点(像素)的所有值都是连续存储的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

为了实现更快的计算,定义了更多格式以将通道值打包在一起并使用降低的精度。因此,TensorRT 还支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值对在每个HxW矩阵中打包在一起(在奇数通道的情况下为空值)。结果是一种格式,其中⌈ C/2 ⌉ HxW矩阵的值是两个连续通道的值对(参见图 3 );请注意,如果它们在同一对中,则此排序将维度交错为具有步长1的通道的值,否则将步长为 2xHxW 。

图 3. 一对通道值在每个HxW矩阵中打包在一起。结果是一种格式,其中[C/2] HxW矩阵的值是两个连续通道的值对

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩阵的条目包括所有通道的值。此外,这些值被打包在⌈ C/8 ⌉ 8 元组中,并且C向上舍入到最接近的 8 倍数。

在这种NHWC8格式中, HxW矩阵的条目包括所有通道的值。

其他TensorFormat遵循与前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8类似的规则。

关于作者

Ken He 是 NVIDIA 企业级开发者社区经理 & 高级讲师,拥有多年的 GPU人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来,完成过上百场培训,帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉,高性能计算领域完成过多个独立项目。并且,在机器人无人机领域,有过丰富的研发经验。对于图像识别,目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式GRAPES,是其主要研发者。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30590

    浏览量

    219609
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109096
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261555
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电能质量在线监测装置支持哪些数据格式的离线查看?

    电能质量在线监测装置支持的离线数据格式主要分为 标准格式 和 通用格式 两大类,其中标准格式是行业主流,通用格式则方便日常
    的头像 发表于 12-05 17:19 959次阅读
    电能质量在线监测装置支持哪些<b class='flag-5'>数据格式</b>的离线查看?

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 756次阅读

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 3968次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 1864次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1757次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 1300次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 1699次阅读

    LPC55S28修改音频数据格式后USB Aduio类异常的原因?

    您好 NXP 前辈,我已经更改了 LPC55S28 官方 SDK 上的 USB 音频数据格式。 我的主要问题是修改音频流格式类型描述符。 我的想法是将 USB Aduio 每个通道的数据字节数从 2
    发表于 03-20 07:33

    用FPGA配置TVP5150,把PAL制标准视频转换成BT656数据格式,能否把数据流直接给SAA7121?

    用FPGA配置TVP5150,把PAL制标准视频转换成BT656数据格式,请问能否把数据流直接给SAA7121这样的编码芯片,我这么做的,但是出来的图像是红色的,是不是寄存器没配置对?还是其他什么原因?
    发表于 02-11 07:14

    使用RDATAC指令后,ADS131E04传送的数据格式以及内容是怎样的?

    请问使用RDATAC指令后,ADS131E04传送的数据格式以及内容是怎样的,数据手册是按照ADS131E08为例来说明有27个BYTE,不知道ADS131E04是不是只用15个BYTE?
    发表于 01-10 07:19

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 1236次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    ads1158读取数据,得到的数据格式是什么样的啊?

    = SPDR; return data; } 想请教一下,其他两种读数据,得到的数据格式是什么样的啊?
    发表于 12-24 08:28

    【AIBOX应用】通过 NVIDIA TensorRT 实现实时快速的语义分割

    NVIDIA系列AIBOXAIBOX-OrinNano和AIBOX-OrinNX均搭载NVIDIA原装JetsonOrin核心板模组,标配工业级全金属外壳,铝合金结构导热,顶盖外壳侧面采用条幅格栅
    的头像 发表于 12-18 16:33 1134次阅读
    【AIBOX应用】通过 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> 实现实时快速的语义分割

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 1608次阅读

    API接口有哪些常见的安全问题

    定义:API是一种软件接口,它规定了软件组件之间的通信方式,使得不同的应用程序能够按照预定义的规则相互通信和交换数据。 既然是接口,那就涉及到数据格式。API接口支持多种
    的头像 发表于 12-15 09:54 1082次阅读
    API接口有哪些常见的安全问题