0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorRT条件用于实现网络子图的条件执行

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-18 10:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

11.1. Defining A Conditional

if-conditional 由条件边界层定义:

  • IConditionLayer表示predicate 并指定条件是应该执行真分支(then-branch)还是假分支(else-branch)。
  • IIfConditionalInputLayer指定两个条件分支之一的输入。
  • IIfConditionalOutputLayer指定条件的输出。

每个边界层都继承自IIfConditionalBoundaryLayer类,该类具有获取其关联IIfConditional的方法getConditional()IIfConditional实例标识条件。所有具有相同IIfConditional的条件边界层都属于该条件。

条件必须恰好有一个IConditionLayer实例、零个或多个IIfConditionalInputLayer实例,以及至少一个IIfConditionalOutputLayer实例。

IIfConditional实现了一个if-then-else流控制结构,该结构提供基于动态布尔输入的网络子图的条件执行。它由一个布尔标量predicate condition和两个分支子图定义:一个trueSubgraphcondition评估为true时执行,一个falseSubgraphcondition评估为false时执行

If condition is true then: 
	output = trueSubgraph(trueInputs);
Else
	output = falseSubgraph(falseInputs);
Emit output

真分支和假分支都必须定义,类似于许多编程语言中的三元运算符。

要定义if-conditional,使用方法INetworkDefinition::addIfConditional创建一个IIfConditional实例,然后添加边界层和分支层。

IIfConditional* simpleIf = network->addIfConditional();

IIfConditional ::setCondition方法接受一个参数:条件张量。这个 0D 布尔张量(标量)可以由网络中的早期层动态计算。它用于决定执行哪个分支。IConditionLayer有一个输入(条件)并且没有输出,因为它由条件实现在内部使用。

// Create a condition predicate that is also a network input.
auto cond = network->addInput("cond", DataType::kBOOL, Dims{0});
IConditionLayer* condition = simpleIf->setCondition(*cond);

TensorRT 不支持实现条件分支的子图抽象,而是使用IIfConditionalInputLayerIIfConditionalOutputLayer来定义条件的边界。

  • IIfConditionalInputLayer将单个输入抽象为IIfConditional的一个或两个分支子图。特定IIfConditionalInputLayer的输出可以同时提供两个分支。then-branchelse-branch的输入不需要是相同的类型和形状,每个分支可以独立地包含零个或多个输入。IIfConditionalInputLayer是可选的,用于控制哪些层将成为分支的一部分(请参阅条件执行)。如果分支的所有输出都不依赖于IIfConditionalInputLayer实例,则该分支为空。当条件为false时没有要评估的层时,空的else-branch可能很有用,并且网络评估应按照条件进行(请参阅条件示例)。
// Create an if-conditional input.
// x is some arbitrary Network tensor.
IIfConditionalInputLayer* inputX = simpleIf->addInput(*x);
  • IIfConditionalOutputLayer抽象了if条件的单个输出。它有两个输入:来自真子图的输出(输入索引 0)和来自假子图的输出(输入索引 1)。IIfConditionalOutputLayer的输出可以被认为是最终输出的占位符,最终输出将在运行时确定。IIfConditionalOutputLayer的作用类似于传统 SSA 控制流图中的 $Φ(Phi)$ 函数节点。它的语义是:选择真子图或假子图的输出。IIfConditional的所有输出都必须源自IIfConditionalOutputLayer实例。没有输出的 if 条件对网络的其余部分没有影响,因此,它被认为是病态的。两个分支(子图)中的每一个也必须至少有一个输出。if-conditional的输出可以标记为网络的输出,除非if-conditional嵌套在另一个if-conditional或循环中。
// trueSubgraph and falseSubgraph represent network subgraphs
IIfConditionalOutputLayer* outputLayer = simpleIf->addOutput(
    *trueSubgraph->getOutput(0), 
    *falseSubgraph->getOutput(0));

下图提供了 if 条件抽象模型的图形表示。绿色矩形表示条件的内部,仅限于NVIDIA TensorRT 支持矩阵中的LayersFor Flow-Control Constructs部分中列出的层类型。

11.2. Conditional Execution

网络层的条件执行是一种网络评估策略,其中仅在需要分支输出的值时才执行分支层(属于条件子图的层)。在条件执行中,无论是真分支还是假分支都被执行并允许改变网络状态。

相反,在断定执行中,真分支和假分支都被执行,并且只允许其中之一改变网络评估状态,具体取决于条件断定的值(即仅其中一个的输出)子图被馈送到以下层。

条件执行有时称为惰性求值,断定执行有时称为急切求值。IIfConditionalInputLayer的实例可用于指定急切调用哪些层以及延迟调用哪些层。这是通过从每个条件输出开始向后跟踪网络层来完成的。依赖于至少一个IIfConditionalInputLayer输出的数据层被认为是条件内部的,因此被延迟评估。在没有IIfConditionalInputLayer实例添加到条件条件的极端情况下,所有层都被急切地执行,类似于ISelectLayer

下面的三个图表描述了IIfConditionalInputLayer放置的选择如何控制执行调度。

在图 A 中,真分支由 3 层(T1、T2、T3)组成。当条件评估为true时,这些层会延迟执行。

在图 B 中,输入层 I1 放置在层 T1 之后,它将 T1 移出真实分支。在评估 if 结构之前,T1 层急切地执行。

在图表 C 中,输入层 I1 被完全移除,这将 T3 移到条件之外。 T2 的输入被重新配置以创建合法网络,并且 T2 也移出真实分支。当条件评估为true时,条件不计算任何内容,因为输出已经被急切地计算(但它确实将条件相关输入复制到其输出)。

11.3. Nesting and Loops

条件分支可以嵌套其他条件,也可以嵌套循环。循环可以嵌套条件。与循环嵌套一样,TensorRT 从数据流中推断条件和循环的嵌套。例如,如果条件 B 使用在循环 A 内定义的值,则 B 被认为嵌套在 A 内。

真分支中的层与假分支中的层之间不能有交叉边,反之亦然。换句话说,一个分支的输出不能依赖于另一个分支中的层。

例如,请参阅条件示例以了解如何指定嵌套。

11.4. Limitations

两个真/假子图分支中的输出张量数必须相同。来自分支的每个输出张量的类型和形状必须相同。

请注意,这比 ONNX 规范更受限制,ONNX 规范要求真/假子图具有相同数量的输出并使用相同的输出数据类型,但允许不同的输出形状。

11.5. Conditional Examples

11.5.1. Simple If-Conditional

下面的例子展示了如何实现一个简单的条件,它有条件地对两个张量执行算术运算。Conditional

condition = true
If condition is true:
        output = x + y
Else:
        output = x - y

Example

ITensor* addCondition(INetworkDefinition& n, bool predicate)
{
    // The condition value is a constant int32 input that is cast to boolean because TensorRT doesn't support boolean constant layers.

    static const Dims scalarDims = Dims{0, {}};
    static float constexpr zero{0};
    static float constexpr one{1};

    float* const val = predicate ? &one : &zero;

    ITensor* cond = 
        n.addConstant(scalarDims, DataType::kINT32, val, 1})->getOutput(0);

    auto* cast = n.addIdentity(cond);
    cast->setOutputType(0, DataType::kBOOL);
    cast->getOutput(0)->setType(DataType::kBOOL);

    return cast->getOutput(0);
}

IBuilder* builder = createInferBuilder(gLogger);
INetworkDefinition& n = *builder->createNetworkV2(0U);
auto x = n.addInput("x", DataType::kFLOAT, Dims{1, {5}});
auto y = n.addInput("y", DataType::kFLOAT, Dims{1, {5}});
ITensor* cond = addCondition(n, true);

auto* simpleIf = n.addIfConditional();
simpleIf->setCondition(*cond);

// Add input layers to demarcate entry into true/false branches.
x = simpleIf->addInput(*x)->getOutput(0);
y = simpleIf->addInput(*y)->getOutput(0);

auto* trueSubgraph = n.addElementWise(*x, *y, ElementWiseOperation::kSUM)->getOutput(0);
auto* falseSubgraph = n.addElementWise(*x, *y, ElementWiseOperation::kSUB)->getOutput(0);

auto* output = simpleIf->addOutput(*trueSubgraph, *falseSubgraph)->getOutput(0);
n.markOutput(*output);

11.5.2. Exporting from PyTorch

以下示例展示了如何将脚本化的 PyTorch 代码导出到 ONNX。函数sum_even中的代码执行嵌套在循环中的 if 条件。

import torch.onnx
import torch
import tensorrt as trt
import numpy as np

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
EXPLICIT_BATCH = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)

@torch.jit.script
def sum_even(items):
    s = torch.zeros(1, dtype=torch.float)
    for c in items:
        if c % 2 == 0:
            s += c
    return s

class ExampleModel(torch.nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, items):
        return sum_even(items)

def build_engine(model_file):
    builder = trt.Builder(TRT_LOGGER)
    network = builder.create_network(EXPLICIT_BATCH)
    config = builder.create_builder_config()
    parser = trt.OnnxParser(network, TRT_LOGGER)

    with open(model_file, 'rb') as model:
        assert parser.parse(model.read())
        return builder.build_engine(network, config)

def export_to_onnx():
    items = torch.zeros(4, dtype=torch.float)
    example = ExampleModel()
    torch.onnx.export(example, (items), "example.onnx", verbose=False, opset_version=13, enable_onnx_checker=False, do_constant_folding=True)

export_to_onnx()
build_engine("example.onnx")

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109117
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134481
  • 人工智能
    +关注

    关注

    1813

    文章

    49756

    浏览量

    261671
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    C/C++条件编译

    条件编译是一种在编译时根据条件选择性地包含或排除部分代码的处理方法。在 C/C++ 中,条件编译使用预处理指令 #ifdef、#endif、#else 和 #elif 来实现。常用的
    发表于 12-05 06:21

    请问如何合理设置这些唤醒条件

    CW32A030 MCU支持从Sleep和DeepSleep模式通过外部中断或实时时钟唤醒。如何合理设置这些唤醒条件,以实现最佳的功耗和响应速度平衡呢?
    发表于 11-26 06:59

    提高条件分支指令预测正确率的方法

    寄存器,分别用于记录条件分支指令个数branch_num和预测失败次数prmiss_num。 上图为运行coremark测试程序的波形,最后预测成功率超过百分之九十。而初始版本的E203处理器预测成功率仅46%。 可见采用基于
    发表于 10-22 08:22

    订单多条件筛选接口设计与实现

    :$u = u_{text{specified}}$ 接口设计原则 RESTful风格 GET /orders?param1=value1¶m2=value2 参数动态组合 支持任意条件自由组合,未传参数视为不筛选 分页机制 需包含page和size参数,避免全量查询 核心实现
    的头像 发表于 10-16 14:14 156次阅读
    订单多<b class='flag-5'>条件</b>筛选接口设计与<b class='flag-5'>实现</b>

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 3984次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的<b class='flag-5'>实现</b>与优化

    NTP网络子母时钟的特点优势及应用场景介绍

    在数字化基础设施高速发展的今天,时间同步已成为金融、医疗、交通等关键领域的核心需求。作为时间频率领域的专业厂商,“同步天下”品牌旗下的SYN6109型NTP网络子钟,以卓越的技术性能和灵活的应用能力
    的头像 发表于 08-09 15:12 1109次阅读

    光耦的导通条件

    光耦的导通条件主要包括以下几点: 一、输入电流达到阈值 光耦的导通条件之一是输入电流(通常是指发光二极管LED的电流If)需要达到一定的阈值。当输入电流小于该阈值时,光耦处于关断状态;当输入电流大于
    的头像 发表于 07-31 09:59 1006次阅读
    光耦的导通<b class='flag-5'>条件</b>

    基础篇3:掌握Python中的条件语句与循环

    : # 条件为真时执行的代码块 如果条件表达式为真(即结果为True),则执行紧随其后的代码块。 elif和else语句 当有多个条件
    发表于 07-03 16:13

    NTP网络子钟的技术架构与行业应用解析

    基准如同数字化时代的 “隐形基础设施”,支撑着各领域的稳定运行。 作为深耕时间频率领域多年的厂家,西安同步电子科技有限公司凭借 “同步天下” 品牌旗下的时间同步设备,包括 NTP 网络子钟系列产品,以卓越的技术实力和
    的头像 发表于 06-06 13:48 319次阅读

    在任何平台上使用PetaLinux的先决条件

    本篇文章介绍了在任何平台上使用 PetaLinux 的先决条件。PetaLinux 是一种嵌入式 Linux 软件开发套件 (SDK),主要用于基于 FPGA 的系统级芯片 (SoC) 设计或 FPGA 设计。
    的头像 发表于 04-24 10:40 1211次阅读
    在任何平台上使用PetaLinux的先决<b class='flag-5'>条件</b>

    测量仪器的有哪些工作条件

    一、什么是测量仪器的 参考工作条件 ? 参考工作条件简称参考条件,是指“为测量仪器或测量系统的性能评价或测量结果的相互比较而规定的工作条件”。为了使对不同测量仪器的性能评价或对不同测量
    的头像 发表于 03-04 17:28 1369次阅读
    测量仪器的有哪些工作<b class='flag-5'>条件</b>?

    请问什么是同步采样ADC?要实现同步采样要满足什么条件

    请问什么是同步采样ADC?要实现同步采样要满足什么条件? 谢谢!
    发表于 01-17 07:49

    什么是云计算平台?搭建云计算平台需要什么条件

    云计算平台是一种以云计算技术为基础的计算服务平台,用于提供灵活、可扩展、可共享的计算资源和系统服务。它允许用户在网络上分布式处理数据和应用程序,具有更高的可用性、更低的成本、更快的响应时间。以下是UU云小编对云计算平台及其搭建所需条件
    的头像 发表于 01-09 10:43 845次阅读

    IC烘烤条件

    芯片烘烤条件
    发表于 12-30 15:04 0次下载

    半导体雷射震荡条件

    共振腔中雷射光来回(round trip)振荡后保持光学自再现(self-consistency)的边界条件,让我们可以求得雷射要稳定存在于共振腔必须符合两条件,第一部分为振幅条件,第二则为相位
    的头像 发表于 12-19 10:52 1001次阅读
    半导体雷射震荡<b class='flag-5'>条件</b>