在GPU上利用TensorFlow Serving 部署ResNet-电子发烧友网

TensorFlow Serving 是用于机器学习模型的高性能灵活服务系统，而 NVIDIA TensorRT™ 是实现高性能深度学习推理的平台，通过将二者相结合，用户便可获得更高性能，从而轻松实现 GPU 推理。TensorFlow 团队与 NVIDIA 合作，在 TensorFlow v1.7 中首次添加了对 TensorRT 的支持。此后，我们一直密切合作，共同改进 TensorFlow-TensorRT 集成（称为 TF-TRT）。TensorFlow Serving 1.13 现已实现这种集成，TensorFlow 2.0 很快也会进行集成。

在之前的文章中，我们介绍了如何借助 Docker 使用 TensorFlow Serving。在本文中，我们将展示以同样的方式运行经 TF-TRT 转换的模型有多简单。与之前一样，我们尝试在生产环境中部署 ResNet 模型。下方所有示例均在配备 Titan-V GPU 的工作站上运行。

注：ResNet 链接

https://github.com/tensorflow/models/tree/master/official/resnet

在 GPU 上利用 TensorFlow Serving 部署 ResNet

在这项练习中，我们仅下载经过预训练的 ResNet SavedModel：

$ mkdir /tmp/resnet

$ curl -s https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz | tar --strip-components=2 -C /tmp/resnet -xvz

$ ls /tmp/resnet

1538687457

注：经过预训练的 ResNet 链接

https://github.com/tensorflow/models/tree/master/official/resnet#pre-trained-model

在之前的文章中，我们展示了如何使用 TensorFlow Serving CPU Docker 图像提供模型。在这里，我们运行 GPU Docker 图像（请查看此处了解相关说明），以借助 GPU 提供并测试此模型：

$ docker pull tensorflow/serving:latest-gpu

$ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \

-v /tmp/resnet:/models/resnet -e MODEL_NAME=resnet -t tensorflow/serving:latest-gpu &

…

… server.cc:286] Running gRPC ModelServer at 0.0.0.0:8500 …

… server.cc:302] Exporting HTTP/REST API at:localhost:8501 …

$ curl -o /tmp/resnet/resnet_client.py https://raw.githubusercontent.com/tensorflow/serving/master/tensorflow_serving/example/resnet_client.py

$ python /tmp/resnet/resnet_client.py

Prediction class:286, avg latency:18.0469 ms

注：此处链接

https://www.tensorflow.org/serving/docker#serving_with_docker_using_your_gpu

此 docker run 命令会启动 TensorFlow Serving 服务器，以提供 /tmp/resnet 中已下载的 SavedModel，并在主机中开放 REST API 端口 8501。resnet_client.py 会发送一些图像给服务器，并返回服务器所作的预测。现在让我们终止 TensorFlow Serving 容器的运行，以释放所占用的 GPU 资源。

$ docker kill tfserving_resnet

注：REST API 链接

https://www.tensorflow.org/tfx/serving/api_rest

利用 TF-TRT 转换和部署模型

现在，我们有了工作模型。为了享受 TensorRT 带来的好处，我们需要在 TensorFlow Serving Docker 容器内运行转换命令，从而将此模型转换为使用 TensorRT 运行运算的模型：

$ docker pull tensorflow/tensorflow:latest-gpu

$ docker run --rm --runtime=nvidia -it -v /tmp:/tmp tensorflow/tensorflow:latest-gpu /usr/local/bin/saved_model_cli \

convert --dir /tmp/resnet/1538687457 --output_dir /tmp/resnet_trt/1538687457 --tag_set serve \

tensorrt --precision_mode FP32 --max_batch_size 1 --is_dynamic_op True

在这里，我们运行了 saved_model_cli 命令行工具，其中内置了对 TF-TRT 转换的支持。--dir 和 --output_dir 参数会指示 SavedModel 的位置以及在何处输出转换后的 SavedModel，而 --tag_set 则指示 SavedModel 中要转换的图表。随后，我们在命令行中传递 tensorrt 并指定配置，明确指示其运行 TF-TRT 转换器：

--precision_mode 指示转换器需使用的精度，目前其仅支持 FP32 和 FP16

--max_batch_size 指示输入的批次大小上限。此转换器要求将由 TensorRT 处理的所有张量将其首个维度作为批次维度，而该参数则指示推理过程中会产生的最大值。若已知推理过程中的实际批次大小上限且该值与之匹配，则转换后的模型即为最优模型。请注意，转换后的模型无法处理批次规模大于此处所指定大小的输入，但可处理批次规模更小的输入

--is_dynamic_op 指示在模型运行时进行实际转换。原因在于，在进行转换时，TensorRT 需要明确所有形状。对于本例中使用的 ResNet 模型，其张量没有固定的形状，因此我们需要此参数

注：saved_model_cli 链接

https://www.tensorflow.org/guide/saved_model#cli_to_inspect_and_execute_savedmodel

现在，我们只需为模型指定正确的目录，便可利用 Docker 提供经 TF-TRT 转换的模型，这与之前一样简单：

$ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \

-v /tmp/resnet_trt:/models/resnet -e MODEL_NAME=resnet -t tensorflow/serving:latest-gpu &

…

… server.cc:286] Running gRPC ModelServer at 0.0.0.0:8500 …

… server.cc:302] Exporting HTTP/REST API at:localhost:8501 …

向其发送请求：

$ python /tmp/resnet/resnet_client.py

Prediction class:286, avg latency:15.0287 ms

最后，我们终止容器的运行：

$ docker kill tfserving_resnet

我们可以看到，使用 TensorFlow Serving 和 Docker 生成经 TF-TRT 转换的模型与提供一般模型一样简单。此外，以上为展示内容，其中的性能数字仅适用于我们所使用的模型和运行本示例的设备，但它的确展现出使用 TF-TRT 所带来的性能优势。

TensorFlow 2.0 发布在即，TensorFlow 团队和 NVIDIA 正在共同努力，以确保 TF-TRT 能在 2.0 中流畅运行。如需了解最新信息，请查看 TF-TRT GitHub 代码库(https://github.com/tensorflow/tensorrt)。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4400

浏览量
126541
机器学习

机器学习

+关注

关注
66

文章
8094

浏览量
130513
tensorflow

tensorflow

+关注

关注
13

文章
313

浏览量
60241

原文标题：利用 NVIDIA TensorRT 优化 TensorFlow Serving 的性能

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

FPGA在深度学习应用中或将取代GPU

上涨，因为事实表明，它们的 GPU 在训练和运行深度学习模型方面效果明显。实际上，英伟达也已经对自己的业务进行了转型，之前它是一家纯粹做 GPU 和游戏的公司，现在除了作为一家云

发表于 03-21 15:19

能否在imx8 dxp芯片上使用GPU进行物体探测?

能否在 imx8dxp 芯片上使用 GPU 进行物体探测? 请告诉我如何执行。

发表于 11-13 06:15

PyTorch与TensorFlow的优点和缺点

转变为开源。作为一个端到端平台，它提供从基本算术运算到神经网络部署的一切。其适应性体现在与CPU、GPU、TPU、移动

发表于 10-30 09:56 •486次阅读

PyTorch与<b class='flag-5'>TensorFlow</b>的优点和缺点

【KV260视觉入门套件试用体验】KV260系列之Petalinux镜像+Resnet 50探索

据流模型。它还可尽可能执行复杂的最优化操作，例如，层融合、指令调度和复用片上存储器。 Vitis AI Profiler可用于对 AI 应用进行性能分析和可视化，以在不同器件之间查找瓶颈并分配计算资源

发表于 10-16 04:22

【KV260视觉入门套件试用体验】Vitis AI 构建开发环境，并使用inspector检查模型

推断开发平台，它可以帮助开发者在赛灵思的 FPGA 和自适应 SoC 上实现高效的 AI 应用部署。它是一个强大而灵活的 AI 开发平台，它可以让您充分利用赛灵思硬件平台的优势，实现

发表于 10-14 15:34

【KV260视觉入门套件试用体验】四、学习过程梳理&DPU镜像&Resnet50

给定的静态图像或动态视频序列中分离出特定的面部状态，以确定待识别对象的心理情绪。 4.图像分类：ResNet50在ImageNet数据集上取得了很好的性能，因此可以用于其他类似的图像分类问题，包括但不限于数码宝贝的识别分类。

发表于 09-26 15:21

【KV260视觉入门套件试用体验】部署DPU镜像并开发一个图像识别程序

和管理数据中心内的计算资源，以满足各种数据处理需求。 DPU镜像的主要优点如下：快速部署-通过使用预先配置好的DPU镜像，您可以轻松地在几分钟内启动新的虚拟机实例，而无需手动配置硬件和安装软件

发表于 09-18 14:15

如何用BMlang搭建Tensorflow模型？

在EVM1684上如何用BMlang搭建一个Tensorflow模型，求助官方一个demo。

发表于 09-18 07:00

GPU上OpenVINO基准测试的推断模型的默认参数与CPU上的参数不同是为什么？

在 CPU 和 GPU 上推断出具有 OpenVINO™ 基准的相同模型： benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m

发表于 08-15 06:43

用TensorFlow将神经网络量化为8位

使用CoreML量化工具优化模型以进行部署。查看34T苹果开发者34Twebsite了解更多更新。请注意，目前无法在iOS上通过CoreML部署8位量化

发表于 08-10 06:01

【KV260视觉入门套件试用体验】KV260部署yolov3实现车辆和行人检测

匹配性的重要性，因此在部署上就存很比较大的困难，幸运的是在KV260上即可完成整个系统的量化，编译以及部

发表于 08-08 14:29

Ai 部署的临界考虑电子指南

虽然GPU解决方案对训练，AI部署需要更多。预计到2020年代中期，人工智能行业将增长到200亿美元，其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70

发表于 08-04 07:25

如何使用TensorFlow将神经网络模型部署到移动或嵌入式设备上

使用TensorFlow的transform_graph工具生成一个优化的8位模型，该模型效率更高，但精度较低。 4.在设备上对优化的模型进行基准测试，并选择最符合您部署需求的模型。

发表于 08-02 06:43

GPU利用率低的本质原因

最近经常有同学反馈 GPU 利用率低，严重浪费 GPU 资源的问题，经过对一些实例分析后，借着这篇文档和大家分享一下解决方案，希望能对使用 GPU 的同学有些帮助。一、

发表于 06-19 14:07 •685次阅读

常见GPU利用率低原因分析

GPU 任务会交替的使用 CPU 和 GPU 进行计算，当 CPU 计算成为瓶颈时，就会出现 GPU 等待的问题，GPU 空跑那利用率就低了

发表于 06-19 12:22 •945次阅读

搜索历史

在GPU上利用TensorFlow Serving 部署ResNet

评论