NVIDIA T4 GPU和TensorRT加速微信搜索速度-电子发烧友网

案例简介

腾讯公司利用NVIDIA TensorRT推理引擎的INT8推理能力和基于知识蒸馏的QAT训练，大大加速了微信中的搜索动能，节省了约70%的计算资源。本案例主要应用到NVIDIA T4 GPU和TensorRT。

客户简介及应用背景

随着腾讯微信的发展，微信搜索也成为其越来越重要的功能，这个功能可以用来搜索微信内部的账号、信息，以及搜索互联网上的内容。微信搜索月活跃用户数量达到五亿以上。搜索业务当中使用了大量的神经网络模型，包括自然语言理解、匹配排序等等，这些模型的训练和推理都大量依赖于NVIDIA GPU，尤其在推理方面，NVIDIA GPU及相应的解决方案都满足了业务所需的延迟和吞吐要求。

客户挑战

微信搜索业务由多个子模块构成，包括查询理解、匹配、搜索排序等等。由于搜索的业务特点，这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年，随着算力的提升以及算法的创新，很多大型复杂的神经网络模型开始应用在这些任务上，比如BERT/Transformer等模型。

这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战，必须针对具体的硬件做极致的优化。而且对于大模型的推理，很多技术被探索、应用在这些场景上以便实现性能加速、节约资源，比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响，限制了这些技术的广泛应用。因此，如何在保证精度效果以及服务吞吐延迟需求的情况下，高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIA TensorRT给这一场景提供了解决方案。

应用方案

为了满足线上服务的需求，并且尽可能地节约成本，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来做线上推理服务，利用NVIDIA基于TensorRT开源的BERT实现，可以很方便地在FP16精度下实现满足需求的线上推理功能。这个方案在线上取得了很好的效果。

在此基础上，微信搜索希望进一步加快推理速度，节约计算资源，以便更好地服务用户，节约成本。低精度推理成为了很好的选择。NVIDIA GPU从图灵（Turing）架构开始就有了INT8 Tensor Core，其计算吞吐量最高可达FP16精度的2倍。同时低精度推理跟其他的优化方法也是正交的，可以同时使用其他技术比如剪枝、蒸馏等做进一步提升。微信搜索线上大量使用NVIDIA T4 GPU，非常适合使用INT8推理。而且TensorRT对INT8推理也有良好的支持。利用TensorRT的“校准”（Calibration）功能，能够方便地将Float精度模型转换为INT8低精度模型，实现低精度推理。通过低精度推理，模型的单次推理时间大大缩短。

通过“校准”来做模型转换已经在很多计算机视觉模型上被验证是十分有效的，并且其精度和推理性能都十分优秀。然而对于像BERT一类的模型， “校准” 无法使得精度和性能都完全令人满意。因此，腾讯搜索使用了NVIDIA开发的基于PyTorch/TensorFlow的量化工具进行基于知识蒸馏的量化感知训练（Quantization Aware Training）克服精度下降的问题。TensorRT对于导入量化感知训练好的模型进行INT8低精度推理有着很好的支持。导入这样的模型，不仅得到了最佳性能，而且精度没有损失，线上服务只需更换TensorRT构建好的引擎即可，极大地简化了部署的流程。

通过这样的方案，微信搜索中的一些关键任务，比如查询理解等自然语言理解任务，可以在精度没有损失的情况下，达到2-10倍的加速效果，平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能，降低了部署成本。

使用效果及影响

使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理，极大提升了微信搜索的速度，进一步提升了用户体验，节约了公司成本。

微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示：”我们已经实现了基于TensorRT和INT8 QAT的模型推理加速，以加速微信搜索的核心任务，包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制，BERT/Transformer可以完全集成到我们的解决方案中。此外，我们利用卓越的性能优化方法，节省了70%的计算资源。”

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4595

浏览量
101724
gpu

gpu

+关注

关注
27

文章
4422

浏览量
126710
计算机

计算机

+关注

关注
19

文章
6651

浏览量
84545

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM

发表于 04-28 10:36 •77次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •164次阅读

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch Te

发表于 01-09 16:41 •394次阅读

NVIDIA GPU 助力筷子科技，升级更全面和 AI 原生化的内容商业全链路平台

了 Kuaizi 的 AI 服务能力。本案例主要应用到 T4 、 V100 、 NVIDIA GTX 1080 Ti 和 TensorRT 。客户简介及应用背景筷子科技是服务于全球内容商业生态的技术提供商

发表于 11-13 20:45 •337次阅读

177倍加速！NVIDIA最新开源 | GPU加速各种SDF建图！

但最近，NVIDIA和ETHZ就联合提出了nvblox，是一个使用GPU加速SDF建图的库。计算速度非常快，相较CPU计算TSDF甚至快了177倍。更重要的是，因为所有数据都已经存储在

发表于 11-09 16:46 •559次阅读

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言

发表于 10-27 20:05 •535次阅读

NVIDIA与NTT DOCOMO联手打造全球首个GPU加速5G网络，欧盟要求苹果开放生态

大家好，欢迎收看河套IT WALK第113期。 NVIDIA与NTT DOCOMO合作推出了全球首个GPU加速的5G网络，这一突破性技术将改变我们对5G网络的认知和使用方式。欧盟对苹果提出了一个灵魂

发表于 09-27 21:20 •505次阅读

Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

。为了帮助满足这一需求，Oracle 云基础设施（OCI）于近日宣布，在 OCI Compute 上全面提供 NVIDIA H100 Tensor Core GPU ，同时 NVIDIA L40S

发表于 09-25 20:40 •289次阅读

学习资源 | NVIDIA TensorRT 全新教程上线

NVIDIA TensorRT 是一个用于高效实现已训练好的深度学习模型推理过程的软件开发工具包，内含推理优化器和运行环境两部分，其目的在于让深度学习模型能够在 GPU 上以更高吞吐量和更低

发表于 08-04 17:45 •469次阅读

TensorRT怎么在多个GPU中指定推理设备

说实话，之前我在笔记本上都一直都是只有一块N卡，所以没有过多关注过这个问题。然而昨天有个人问我，TensorRT怎么在多个GPU中指定模型推理GPU设备？我查了一下，发现官方有几个不同的解决方案，个人总结了一下，主要的做法有两种

发表于 08-03 14:10 •523次阅读

即刻报名第三届 NVIDIA TensorRT Hackathon 生成式 AI 模型优化赛

全社会开放，接受个人或不多于三人的组队形式参赛。 NVIDIA TensorRT 作为 NVIDIA GPU 上的 AI 推理加速库，已在

发表于 07-17 19:45 •336次阅读

NVIDIA TensorRT与Apache Beam SDK的集成

使用 NVIDIA TensorRT 在 Apache Beam 中简化和加速机器学习预测

发表于 07-05 16:30 •277次阅读

NVIDIA GPU 加速 WPS Office AI 服务，助力打造优质的用户体验

案例介绍金山办公与 NVIDIA 团队合作，通过 NVIDIA Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率；借助

发表于 06-29 21:35 •395次阅读

NVIDIA 招聘 | NVIDIA 最新热招岗位！一起迎接未来加速计算！

NVIDIA 计算架构团队和 NVIDIA 计算专家团队正在热招！如果你对加速计算领域充满热情，并且希望与优秀的技术专家一起合作，那么这个机会将是你展现才华的优质平台，快来加入

发表于 06-14 18:35 •662次阅读

NVIDIA GPU 助力三维家打造 3D 垂类大模型，引领家居设计变革

案例简介广东三维家信息科技有限公司（以下简称“三维家”），通过采用 NVIDIA GPU 和 NVIDIA 推理加速引擎 TensorRT

发表于 05-17 05:55 •306次阅读