如何实现高效的部署医疗影像推理-电子发烧友网

一个完整的医疗影像推理流程一般包含数据的前处理、AI 推理以及数据后处理这几部分。通常情况下，我们可以通过 TensorRT， TensorFlow 或者 PyTorch 这些框架来实现 GPU 加速的 AI 推理部分，然而数据前后处理部分往往是放在 CPU 上执行的。对于一些比较大的数据，比如 CT 或者 MR 这种 3D 图像，CPU 上的数据前后处理会成为整个推理流程的瓶颈，导致推理的时延变长，GPU 使用效率不高。医疗影像推理的另一个需要考虑的问题是如何实现高效的部署。我们往往需要部署多个医疗影像 AI 应用，那么如何去调度多个模型，如何并发处理多个请求，并充分利用 GPU 资源成为挑战。

什么是 MONAI

MONAI 是一个专门针对医疗图像的深度学习开源框架。MONAI 致力于：

发展一个学术界、工业界和临床研究人员共同合作的社区；
为医疗图像创建最先进的端到端工作流；
为研究人员提供创建和评估深度学习模型的优化和标准化的方法。

MONAI 中包含一系列的 transforms 对医疗图像数据进行前后处理。在 MONAI 0.7 中，我们在 transforms 中引入基于 PyTorch Tensor 的计算，许多 transforms 既支持 NumPy array，也支持 PyTorch Tensor 作为输入类型和计算后端。当以 PyTorch Tensor 作为输入数据时，我们可以使用 GPU 来加速数据前后处理的计算。

什么是 NVIDIA Triton 推理服务器

Triton 推理服务器是一个开源的 AI 模型部署软件，可以简化深度学习推理的大规模部署。它能够对多种框架（TensorFlow、TensorRT、PyTorch、ONNX Runtime 或自定义框架），在任何基于 GPU 或 CPU 的环境上（云、数据中心、边缘）大规模部署经过训练的 AI 模型。Triton 可提供高吞吐量推理，以实现 GPU 使用率的最大化。

在较新的版本中，Triton 增加了 Python backend 这一新特性，Python backend 的目标是让使用者可以更加容易的部署 Python 写的模型，无需再去编写任何 C++ 代码。在一些场景下，我们的推理流程中可能会出现循环、条件判断、依赖于运行时数据的控制流和其他自定义逻辑与模型混合执行。使用 Triton Python backend，开发人员可以更加容易地在自己的推理流程中实现这些控制流，并且在 Python 模型中调用 Triton 部署的其他模型。

使用 MONAI 和 Triton 高效搭建和部署 GPU 加速的医疗影像推理流程

在本文介绍的例子中，我们将使用 MONAI 中 GPU 加速的数据处理以及 Triton 的 Python backend 来构建一个 GPU 加速的医疗影像推理流程。通过这个例子，读者可以了解到，在 GPU 上进行数据处理所带来的性能增益，以及如何使用 Triton 进行高效的推理部署。

整个推理流程如下图所示，包含数据预处理，AI 模型推理，和数据后处理三部分。

如何实现高效的部署医疗影像推理

通过 EnsureType 这个 transform，我们将输入数据转换成 PyTorch Tensor 并放到 GPU 上，这样之后的数据预处理操作都会在 GPU 上进行。我们使用 Triton 的 Torch backend 来作为 3DUnet 的推理后端，输出的结果为 GPU 上的 Torch Tensor，并作为后处理模块的输入，在 GPU 上进行后处理计算。

使用 Triton 的 Python backend，我们可以非常容易的将整个流程串联起来，即：按照 Triton Python backend 要求的模型结构构建前后处理的 Python 代码，并在其中调用 3DUnet 的推理。以下是我们例子中的代码片段。完整的代码及复现步骤请见 Github:

https://github.com/Project-MONAI/tutorials/tree/master/full_gpu_inference_pipeline

class TritonPythonModel:      """     Your Python model must use the same class name. Every Python model     that is created must have "TritonPythonModel" as the class name.     """        def initialize(self, args):          """         `initialize` is called only once when the model is being loaded.         Implementing `initialize` function is optional. This function allows         the model to intialize any state associated with this model.         """          self.inference_device_id = args.get("model_instance_device_id", "0")          infer_transforms = []          infer_transforms.append(EnsureType(device=torch.device(f"cuda:{self.inference_device_id}")))          infer_transforms.append(AddChannel())          infer_transforms.append(ScaleIntensityRange(a_min=-57, a_max=164, b_min=0.0, b_max=1.0, clip=True))          infer_transforms.append(CropForeground())          infer_transforms.append(Resize(spatial_size=(224, 224, 224)))          self.pre_transforms = Compose(infer_transforms)        def execute(self, requests):          """         `execute` must be implemented in every Python model. `execute`         function receives a list of pb_utils.InferenceRequest as the only         argument. This function is called when an inference is requested         for this model. Depending on the batching configuration (e.g. Dynamic         Batching) used, `requests` may contain multiple requests. Every         Python model, must create one pb_utils.InferenceResponse for every         pb_utils.InferenceRequest in `requests`. If there is an error, you can         set the error argument when creating a pb_utils.InferenceResponse.         """          responses = []            for request in requests:              # get the input by name (as configured in config.pbtxt)              input_triton_tensor = pb_utils.get_input_tensor_by_name(request, "INPUT0")              # convert the triton tensor to torch tensor              input_torch_tensor = from_dlpack(input_triton_tensor.to_dlpack())              transform_output = self.pre_transforms(input_torch_tensor[0])              transform_output_batched = transform_output.unsqueeze(0)              # convert the torch tensor to triton tensor              transform_tensor = pb_utils.Tensor.from_dlpack("INPUT__0", to_dlpack(transform_output_batched))              # send inference request to 3DUnet served by Triton. The name of the model is "segmentation_3d"              inference_request = pb_utils.InferenceRequest(                  model_name="3dunet", requested_output_names=["OUTPUT__0"], inputs=[transform_tensor]              )                infer_response = inference_request.exec()              output1 = pb_utils.get_output_tensor_by_name(infer_response, "OUTPUT__0")              # convert the triton tensor to torch tensor              output_tensor = from_dlpack(output1.to_dlpack())                # do the post process              argmax = AsDiscrete(argmax=True)(output_tensor[0])              largest = KeepLargestConnectedComponent(applied_labels=1)(argmax)              contour = LabelToContour()(largest)              out_tensor_0 = pb_utils.Tensor.from_dlpack("MASK", to_dlpack(largest.unsqueeze(0)))              out_tensor_1 = pb_utils.Tensor.from_dlpack("CONTOUR", to_dlpack(contour.unsqueeze(0)))              inference_response = pb_utils.InferenceResponse(output_tensors=[out_tensor_0, out_tensor_1])              responses.append(inference_response)          return responses        def finalize(self):          """         `finalize` is called only once when the model is being unloaded.         Implementing `finalize` function is optional. This function allows         the model to perform any necessary clean ups before exit.         """  pass

以 MSD Spleen 3D 数据作为输入，经过整个推理流程，将得到分割后的脾脏区域以及其轮廓。

如何实现高效的部署医疗影像推理

性能测试

我们在 RTX 8000 上对整个推理流程进行了性能测试，以了解 Triton 及 MONAI 不同特性对性能的影响。

HTTP vs. gRPC vs. shared memory

目前 Triton 支持 HTTP， gRPC 和共享内存等方式进行数据通信。由于三维医学图像通常很大，通信带来的开销不容忽视。对于许多常见的医学图像人工智能应用，客户端与服务器位于同一台机器上，因此使用共享内存是减少发送/接收开销的一种可行方法。在测试中，我们比较了客户端和服务器之间使用不同通信方式对性能的影响。所有过程（前/后处理和AI推理）都在 GPU 上。我们可以得出结论，当数据传输量很大时，使用共享内存将大大减少延迟。

如何实现高效的部署医疗影像推理

Pre/Post-processing on GPU vs. CPU

接着我们测试了分别在 GPU 和 CPU 进行前后数据处理时，整个推理流程的速度。可以看到，当使用 GPU 进行数据处理时，可以实现 12 倍的加速。

如何实现高效的部署医疗影像推理

想要了解更多 Triton 和 MONAI 的特性与使用方法，请关注以下链接。同时，Triton 和 MONAI 均已在 Github 开源，欢迎开发者踊跃参与开源社区建设。

原文标题：使用 MONAI 和 Triton 高效构建和部署 GPU 加速的医疗影像推理流程

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4598

浏览量
101779
gpu

gpu

+关注

关注
27

文章
4426

浏览量
126759
医疗

医疗

+关注

关注
8

文章
1726

浏览量
58179

原文标题：使用 MONAI 和 Triton 高效构建和部署 GPU 加速的医疗影像推理流程

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

基于OpenCV DNN实现YOLOv8的模型部署与推理演示

基于OpenCV DNN实现YOLOv8推理的好处就是一套代码就可以部署在Windows10系统、乌班图系统、Jetson的Jetpack系统

发表于 03-01 15:52 •454次阅读

基于OpenCV DNN<b class='flag-5'>实现</b>YOLOv8的模型<b class='flag-5'>部署</b>与<b class='flag-5'>推理</b>演示

【爱芯派 Pro 开发板试用体验】在爱芯派部署ChatGLM3（一）

/main/detail。ChatGLM3 的推理框架是基于最新的高效动态推理和显存优化技术构建的，在相同硬件、模型条件下，相较于目前最佳的开源实现，对比伯克利大学推出的 vLLM 以

发表于 12-17 22:54

佰维存储工业级SSD高效可靠助力医疗影像行业智能发展

根据IDC发布的《数字宇宙驱动医疗行业数据增长》报告显示，医疗行业数据量每年以48%的速度增长，是增速最快的行业之一，其面临海量数据的负载挑战。医疗临床影像是

发表于 11-03 18:13 •236次阅读

佰维存储工业级SSD<b class='flag-5'>高效</b>可靠助力<b class='flag-5'>医疗</b><b class='flag-5'>影像</b>行业智能发展

佰维存储工业级SSD高效可靠助力医疗影像行业智能发展

发表于 11-03 17:40 •203次阅读

Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs，比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署

发表于 11-01 17:48 •472次阅读

影像测量法是一种快速高效的筛网孔径测量方法，适用于孔径4mm以下的精密筛网检测，操作十分简单。#影像仪

影像影像测量

中图仪器
发布于 :2023年11月01日 09:22:19

易华录大连数据湖成功上线医疗影像云基地

近日，为进一步加强基础信息化建设，实现跨越发展，认真贯彻国家卫生健康委、国家中医药局、国家疾控局《“十四五”全民健康信息化规划》，推动落实《关于深入推进“互联网+医疗健康”“五个一”服务行动的通知

发表于 10-24 16:15 •317次阅读

西门子医疗影像设备实现全产品线国产化

首次国产投产的即是公司国内最顶级机型，此举标志着西门子医疗实现大型影像诊断设备 CT、磁共振、X 光机、分子影像、超声、临床介入治疗产品，和核心零部件 X 射线球管的全产品线国产化。

发表于 10-23 15:46 •312次阅读

基于OpenVINO Python API部署RT-DETR模型

RT-DETR 是在 DETR 模型基础上进行改进的，一种基于 DETR 架构的实时端到端检测器，它通过使用一系列新的技术和算法，实现了更高效的训练和推理，我们将在 Python、C++、C# 三个

发表于 10-20 11:15 •549次阅读

介绍一款基于昆仑芯AI加速卡的高效模型推理部署框架

昆仑芯科技公众号全新栏目“用芯指南”重磅推出！面向AI行业技术从业者，系列好文将提供手把手的昆仑芯产品使用指南。第一期围绕昆仑芯自研效能工具——昆仑芯Anyinfer展开，这是一款基于昆仑芯AI加速卡的高效模型推理部署框架。种种

发表于 10-17 11:16 •953次阅读

三种主流模型部署框架YOLOv8推理演示

深度学习模型部署有OpenVINO、ONNXRUNTIME、TensorRT三个主流框架，均支持Python与C++的SDK使用。对YOLOv5~YOLOv8的系列模型，均可以通过C++推理实现模型

发表于 08-06 11:39 •1857次阅读

Ai 部署的临界考虑电子指南

虽然GPU解决方案对训练，AI部署需要更多。预计到2020年代中期，人工智能行业将增长到200亿美元，其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70

发表于 08-04 07:25

医疗影像设备可以集成什么样的伺服电机？

医疗影像设备通常需要高精度、低噪音和可靠性的驱动系统。以下是一些常见的伺服电机类型，可以用于集成医疗影像设备中：（1）无刷直流伺服电机，它具有高效

发表于 07-26 09:55 •237次阅读

百度飞桨PP-YOLOE ONNX 在LabVIEW中的部署推理(含源码)

对于如何在LabVIEW中实现该模型的部署，笔者目前还没有看到相关介绍文章，所以笔者在实现PP-YOLOE ONNX 在LabVIEW中的部署推理

发表于 05-26 14:01 •481次阅读

英特尔以AI边缘计算技术助力医疗影像创新，加速基层医疗普惠

以医学影像场景为例——医学影像技术的飞速进步让越来越多临床诊断有“据”可依。为帮助医疗机构轻松面对不断扩张的影像数据处理需求，基于英特尔架构，汇医慧影打造了包括Dr.Turing AI

发表于 05-16 10:27 •406次阅读