0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT的数据格式定义

星星科技指导员 来源:NVIDIA 作者:Ken He 2022-05-20 14:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TensorRT 支持不同的数据格式。有两个方面需要考虑:数据类型和布局。

数据类型格式

数据类型是每个单独值的表示。它的大小决定了取值范围和表示的精度,分别是FP32(32位浮点,或单精度),FP16(16位浮点或半精度),INT32(32位整数表示),和 INT8(8 位表示)。

布局格式

布局格式确定存储值的顺序。通常,batch 维度是最左边的维度,其他维度指的是每个数据项的方面,例如图像中的C是通道, H是高度, W是宽度。忽略总是在这些之前的批量大小, C 、 H和W通常被排序为CHW (参见图 1 )或HWC (参见图 2 )。

图1. CHW的布局格式:图像分为HxW矩阵,每个通道一个,矩阵按顺序存储;通道的所有值都是连续存储的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

图2. HWC的布局格式:图像存储为单个HxW矩阵,其值实际上是 C 元组,每个通道都有一个值;一个点(像素)的所有值都是连续存储的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

为了实现更快的计算,定义了更多格式以将通道值打包在一起并使用降低的精度。因此,TensorRT 还支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值对在每个HxW矩阵中打包在一起(在奇数通道的情况下为空值)。结果是一种格式,其中⌈ C/2 ⌉ HxW矩阵的值是两个连续通道的值对(参见图 3 );请注意,如果它们在同一对中,则此排序将维度交错为具有步长1的通道的值,否则将步长为 2xHxW 。

图 3. 一对通道值在每个HxW矩阵中打包在一起。结果是一种格式,其中[C/2] HxW矩阵的值是两个连续通道的值对

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩阵的条目包括所有通道的值。此外,这些值被打包在⌈ C/8 ⌉ 8 元组中,并且C向上舍入到最接近的 8 倍数。

在这种NHWC8格式中, HxW矩阵的条目包括所有通道的值。

其他TensorFormat遵循与前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8类似的规则。

关于作者

Ken He 是 NVIDIA 企业级开发者社区经理 & 高级讲师,拥有多年的 GPU人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来,完成过上百场培训,帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉,高性能计算领域完成过多个独立项目。并且,在机器人无人机领域,有过丰富的研发经验。对于图像识别,目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式GRAPES,是其主要研发者。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31391

    浏览量

    223545
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110096
  • 人工智能
    +关注

    关注

    1819

    文章

    50290

    浏览量

    266826
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    超擎数智为您深度解析NVIDIA Quantum-X800 InfiniBand平台

    NVIDIA
    专精特新
    发布于 :2026年01月08日 19:47:03

    BLE 蓝牙空中报文格式与解析(广播包)

    BLE 广播包数据格式解析说明 ...... 矜辰所致
    的头像 发表于 01-04 17:28 2307次阅读
    BLE 蓝牙空中报文<b class='flag-5'>格式</b>与解析(广播包)

    电能质量在线监测装置的数据压缩存储功能支持的数据格式可以修改吗?

    电能质量在线监测装置的数据压缩存储功能支持的数据格式 部分可修改 ,具体取决于格式类型(数据文件格式 / 压缩算法格式)与厂家设计,核心结论
    的头像 发表于 12-11 16:39 1213次阅读
    电能质量在线监测装置的<b class='flag-5'>数据</b>压缩存储功能支持的<b class='flag-5'>数据格式</b>可以修改吗?

    电能质量在线监测装置支持哪些数据格式的离线查看?

    电能质量在线监测装置支持的离线数据格式主要分为 标准格式 和 通用格式 两大类,其中标准格式是行业主流,通用格式则方便日常
    的头像 发表于 12-05 17:19 1469次阅读
    电能质量在线监测装置支持哪些<b class='flag-5'>数据格式</b>的离线查看?

    电能质量在线监测装置的数据推送协议是否可以自定义配置?

    现代电能质量在线监测装置普遍支持 协议参数自定义配置 和 协议组合灵活适配 ,用户可根据实际需求调整通信参数、映射数据格式,甚至通过第三方工具实现非标准协议的兼容。以下是具体实现方式及技术细节: 一
    的头像 发表于 11-12 13:58 533次阅读
    电能质量在线监测装置的<b class='flag-5'>数据</b>推送协议是否可以自<b class='flag-5'>定义</b>配置?

    电能表采用645协议抄表,为什么功率必须低于80kW?如何解决?

    79.9999kW 的功率上限并非技术瓶颈,而是 “数据格式 + 应用场景” 双重匹配的结果。
    的头像 发表于 10-28 16:19 1230次阅读
    电能表采用645协议抄表,为什么功率必须低于80kW?如何解决?

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1386次阅读

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1329次阅读
    <b class='flag-5'>TensorRT</b>-LLM的大规模专家并行架构设计

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4652次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    浅谈电子工程师困惑多年的EDA行业的标准格式

    数据格式还是非常丰富的。比如*.dxf,*.step,*.prt,*.stl......格式特点STEP(.STP/.STEP)ISO标准,支持精确几何,装配结
    的头像 发表于 08-23 12:34 822次阅读
    浅谈电子工程师困惑多年的EDA行业的标准<b class='flag-5'>格式</b>

    PLC串口自由协议通信概述

    串口自由协议通信是一种灵活的串行通信方式。在该模式下,开发者无需遵循特定标准协议,可根据实际需求自由定义数据格式与交互规则。
    的头像 发表于 08-07 09:15 2302次阅读
    PLC串口自由协议通信概述

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 2156次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2396次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 GTC 2025
    的头像 发表于 07-02 19:31 3543次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 2049次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践