0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA T4 GPU和TensorRT加速微信搜索速度

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-21 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

腾讯公司利用NVIDIA TensorRT推理引擎的INT8推理能力和基于知识蒸馏的QAT训练,大大加速了微信中的搜索动能,节省了约70%的计算资源。本案例主要应用到NVIDIA T4 GPU和TensorRT。

客户简介及应用背景

随着腾讯微信的发展,微信搜索也成为其越来越重要的功能,这个功能可以用来搜索微信内部的账号、信息,以及搜索互联网上的内容。微信搜索月活跃用户数量达到五亿以上。搜索业务当中使用了大量的神经网络模型,包括自然语言理解、匹配排序等等,这些模型的训练和推理都大量依赖于NVIDIA GPU,尤其在推理方面,NVIDIA GPU及相应的解决方案都满足了业务所需的延迟和吞吐要求。

客户挑战

微信搜索业务由多个子模块构成,包括查询理解、匹配、搜索排序等等。由于搜索的业务特点,这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年,随着算力的提升以及算法的创新,很多大型复杂的神经网络模型开始应用在这些任务上,比如BERT/Transformer等模型。

这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战,必须针对具体的硬件做极致的优化。而且对于大模型的推理,很多技术被探索、应用在这些场景上以便实现性能加速、节约资源,比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响,限制了这些技术的广泛应用。因此,如何在保证精度效果以及服务吞吐延迟需求的情况下,高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIA TensorRT给这一场景提供了解决方案。

应用方案

为了满足线上服务的需求,并且尽可能地节约成本,微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求,微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来做线上推理服务,利用NVIDIA基于TensorRT开源的BERT实现,可以很方便地在FP16精度下实现满足需求的线上推理功能。这个方案在线上取得了很好的效果。

在此基础上,微信搜索希望进一步加快推理速度,节约计算资源,以便更好地服务用户,节约成本。低精度推理成为了很好的选择。NVIDIA GPU从图灵(Turing)架构开始就有了INT8 Tensor Core,其计算吞吐量最高可达FP16精度的2倍。同时低精度推理跟其他的优化方法也是正交的,可以同时使用其他技术比如剪枝、蒸馏等做进一步提升。微信搜索线上大量使用NVIDIA T4 GPU,非常适合使用INT8推理。而且TensorRT对INT8推理也有良好的支持。利用TensorRT的“校准”(Calibration)功能,能够方便地将Float精度模型转换为INT8低精度模型,实现低精度推理。通过低精度推理,模型的单次推理时间大大缩短。

通过“校准”来做模型转换已经在很多计算机视觉模型上被验证是十分有效的,并且其精度和推理性能都十分优秀。然而对于像BERT一类的模型, “校准” 无法使得精度和性能都完全令人满意。因此,腾讯搜索使用了NVIDIA开发的基于PyTorch/TensorFlow的量化工具进行基于知识蒸馏的量化感知训练(Quantization Aware Training)克服精度下降的问题。TensorRT对于导入量化感知训练好的模型进行INT8低精度推理有着很好的支持。导入这样的模型,不仅得到了最佳性能,而且精度没有损失,线上服务只需更换TensorRT构建好的引擎即可,极大地简化了部署的流程。

通过这样的方案,微信搜索中的一些关键任务,比如查询理解等自然语言理解任务,可以在精度没有损失的情况下,达到2-10倍的加速效果,平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能,降低了部署成本。

使用效果及影响

使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理,极大提升了微信搜索的速度,进一步提升了用户体验,节约了公司成本。

微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示:”我们已经实现了基于TensorRT和INT8 QAT的模型推理加速,以加速微信搜索的核心任务,包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制,BERT/Transformer可以完全集成到我们的解决方案中。此外,我们利用卓越的性能优化方法,节省了70%的计算资源。”

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109094
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92682
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 3664次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 756次阅读

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 3968次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 997次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和
    的头像 发表于 07-16 09:16 1862次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1757次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 G
    的头像 发表于 07-02 19:31 2938次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 1300次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的 NVIDIA
    的头像 发表于 03-28 09:59 1073次阅读

    使用NVIDIA CUDA-X库加速科学和工程发展

    NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行
    的头像 发表于 03-25 15:11 1205次阅读

    NVIDIA技术助力Pantheon Lab数字人实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字人技术解决方案,通过 NVIDIA 技术实现数字人实时对话与客户互动交流。借助 NVIDIA GPUNVIDIA
    的头像 发表于 01-14 11:19 927次阅读

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升产品竞争力。
    的头像 发表于 12-27 16:24 1150次阅读

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 1233次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,确保您的 NVIDIA GPU 能发挥出卓越的推理性能。
    的头像 发表于 12-17 17:47 1607次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟:通过加速对话框启用,打开求解器对话框,点击“
    发表于 12-16 14:25