0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA T4 GPU和TensorRT提高微信搜索速度

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-06-27 14:34 次阅读

腾讯公司深耕模型量化开发,且长期与 NVIDIA 团队合作,成功将深度学习模型精度从 FP32 压缩到 FP16 以及 INT8。现在,该技术再次获得了新的重要突破。腾讯团队利用全新设计的 QAT 训练算法 Auto48,以及 INT4 推理能力,实现业界首次无损 INT4 在 NLP 领域落地使用的技术突破。服务上线后,不仅极大提升了微信中的搜索能力,在之前的基础上更进一步为公司节省了约 30% 的计算资源,其中 NVIDIAT4、A10 GPUTensorRT 即为本案例的应用核心。

腾讯微信是目前国内最大的社交平台及通讯工具之一。随着微信生态环境的优化,其功能也越来越丰富,搜索也成为其越来越重要的入口,这个入口可以用来搜索微信内部的功能、信息,以及搜索互联网上的内容,目前微信搜一搜月活跃用户已超过 7 亿。而在搜索业务当中微信团队使用了大量的神经网络模型,包括自然语言理解、匹配排序等等,这些模型的训练和推理也都大量依赖于 NVIDIA GPU,尤其在推理方面, NVIDIA GPU 及相应的解决方案皆满足了业务所需的延迟和吞吐要求。

搜索业务由多个子模块构成,包括查询理解、匹配、搜索排序等等。由于搜索的业务特点,这些任务对线上服务的延迟和吞吐都十分敏感。而在最近几年,随着算力的提升以及算法的创新,众多大型复杂的神经网络模型也开始应用在这些任务上。一方面,现有的模型(例如 BERT/GPT)带来的成本压力显著;另一方面,超大规模(十/百亿参数)模型带来的精度提升使得大模型应用需求持续升温。因此,这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战,必须针对具体的硬件做极致的优化。现有的对于大模型的推理加速技术,比如模型压缩、剪枝、低精度计算等等,都被证明能够一定程度上实现性能加速、节约资源。然而,这些技术可能会带来精度下降等负面影响,限制了这些技术的广泛应用。因此,如何在保证精度效果以及服务吞吐延迟需求的情况下,高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU 以及 TensorRT 给这一场景提供了解决方案。

为了满足线上服务的需求,并且尽可能地节约成本,微信搜一搜选择使用 NVIDIA T4 GPU 以及 TensorRT+CUTLASS 实现来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求,微信搜一搜选择使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎来做线上推理服务,利用 NVIDIA 基于 TensorRT 实现的 INT8 BERT,可以很方便地在 INT8 精度下实现满足需求的线上推理功能。利用 TensorRT 提供的“校准”(Calibration)功能结合量化感知训练(Quantization Aware Training, QAT),可以方便地将 Float 精度模型转换为 INT8 低精度模型,实现低精度推理。通过低精度推理,模型的单次推理时间大大缩短 30%。这个方案在线上取得了很好的效果。

在此基础上,微信搜一搜希望进一步加快推理速度,节约计算资源,以便更好地服务用户,节约成本。更低的低精度推理成为了很好的选择。NVIDIA GPU 从图灵(Turing)架构开始就有了 INT4 Tensor Core,其计算吞吐量最高可达 FP16 精度的 4 倍。并且低精度推理可以同时使用其他技术比如剪枝、蒸馏等相结合做进一步提升。微信搜一搜线上大量使用 NVIDIA T4 GPU,非常适合应用 INT4 推理,且 CUTLASS 对 INT4 GEMM 也有良好的支持。

然而当进一步将数据类型从 INT8 降低到 INT4 的时候,如果使用相同的 QAT 算法时,模型的精度会发生显著的下降(超过 2%)。因此,微信搜一搜设计了全新的训练算法—— Auto48。Auto48 是一套全新的自动化模型量化工具,能够帮助用户自动生成自定义压缩率下,性能最优的量化模型。在 QAT 算法的启发下, Auto48 设计了全新的动态压缩算法来极大地减小高压缩率(INT4)带来的压缩误差,并且结合了更有效的知识蒸馏相关技术,使得量化后的模型准确度得到了显著的提高。进一步的, Auto48 还支持 INT8+INT4 混合精度的压缩,这使得用户可以自由的在压缩率和精度之间做权衡,甚至实现无损压缩。TensorRT 对于导入 QAT 训练好的模型进行 INT8 低精度推理已经有了很好的支持。T4 GPU 在硬件上支持 INT4 Tensor Core,使用 CUTLASS 可以方便地构建出满足多种需求的 INT4 GEMM 算子。这些算子不仅降低了推理时间,还保证了算子的功能的灵活性和扩展性。基于 Auto48 训练的模型,不仅得到了最佳性能,而且精度没有损失,线上服务只需做少许改动即可,极大地简化了部署的流程。

通过这样的方案,微信搜一搜中的一些关键任务,比如查询理解等自然语言理解任务,可以在精度没有损失的情况下,达到 1.4 倍的加速效果,平均单句推理时间达到了 0.022ms。任务相应的计算资源节省了约 30%。近期微信搜一搜在部分任务上线了 INT4 模型服务,该服务相较于之前的 INT8 模型服务有显著的性能提升,在流量高峰时平均响应时间降低了 21%,超时率降低了 70%。这个方案大大优化了微信搜一搜业务的性能,降低了部署成本。

使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎进行 INT4 低精度推理,极大提升了微信搜一搜相关任务的速度,进一步提升了用户体验,节约了公司成本。

INT4 与 INT8 服务请求耗时和失败率对比

工程师朱健琛和李辉表示:“我们成功地实现了 INT4 的量化加速模型,并且在微信搜索核心任务(例如 query 理解和打分)上,显著的提高了这些模型的推理速度。通过使用我们提出的 Auto48 算法,我们成功打破了 NLP 模型的复杂性带来的限制。这种先进的优化手段可以极大地减少计算资源的需求。”

原文标题:NVIDIA TensorRT 助力腾讯加速微信搜一搜

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4588

    浏览量

    101702
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4415

    浏览量

    126663
  • 腾讯
    +关注

    关注

    7

    文章

    1619

    浏览量

    49157
  • 微信
    +关注

    关注

    6

    文章

    508

    浏览量

    26077

原文标题:NVIDIA TensorRT 助力腾讯加速微信搜一搜

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。
    的头像 发表于 04-23 09:52 85次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 152次阅读

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch Te
    的头像 发表于 01-09 16:41 386次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型推理性能的工具

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 433次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    NVIDIA GPU 助力筷子科技,升级更全面和 AI 原生化的内容商业全链路平台

    了 Kuaizi 的 AI 服务能力。 本案例主要应用到 T4 、 V100 、 NVIDIA GTX 1080 Ti 和 TensorRT 。 客户简介及应用背景 筷子科技是服务于全球内容商业生态的技术提供商
    的头像 发表于 11-13 20:45 334次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> 助力筷子科技,升级更全面和 AI 原生化的内容商业全链路平台

    177倍加速!NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在GPU
    的头像 发表于 11-09 16:46 545次阅读
    177倍加速!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b>加速各种SDF建图!

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Mode
    的头像 发表于 10-27 20:05 523次阅读
    现已公开发布!欢迎使用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM 优化大语言模型推理

    阿里云 &amp; NVIDIA TensorRT Hackathon 2023 决赛圆满收官,26 支 AI 团队崭露头角

    2023 年 9 月 29 日,由阿里云、NVIDIA 联合主办,阿里云天池平台承办的 “NVIDIA TensorRT Hackathon 2023 生成式 AI 模型优化赛” 圆满落幕。该赛事
    的头像 发表于 10-17 03:20 352次阅读
    阿里云 &amp; <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> Hackathon 2023 决赛圆满收官,26 支 AI 团队崭露头角

    学习资源 | NVIDIA TensorRT 全新教程上线

    NVIDIA TensorRT   是一个用于高效实现已训练好的深度学习模型推理过程的软件开发工具包,内含推理优化器和运行环境两部分,其目的在于让深度学习模型能够在 GPU 上以更高吞吐量和更低
    的头像 发表于 08-04 17:45 467次阅读
    学习资源 | <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> 全新教程上线

    TensorRT怎么在多个GPU中指定推理设备

    说实话,之前我在笔记本上都一直都是只有一块N卡,所以没有过多关注过这个问题。然而昨天有个人问我,TensorRT怎么在多个GPU中指定模型推理GPU设备?我查了一下,发现官方有几个不同的解决方案,个人总结了一下,主要的做法有两种
    的头像 发表于 08-03 14:10 508次阅读

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗
    的头像 发表于 08-01 14:46 295次阅读

    即刻报名第三届 NVIDIA TensorRT Hackathon 生成式 AI 模型优化赛

    全社会开放,接受个人或不多于三人的组队形式参赛。 NVIDIA TensorRT 作为 NVIDIA  GPU 上的 AI 推理加速库,已在业界得到广泛应用与
    的头像 发表于 07-17 19:45 335次阅读
    即刻报名第三届 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> Hackathon 生成式 AI 模型优化赛

    NVIDIA TensorRT与Apache Beam SDK的集成

    使用 NVIDIA TensorRT 在 Apache Beam 中简化和加速机器学习预测
    的头像 发表于 07-05 16:30 274次阅读

    NVIDIA GPU 加速 WPS Office AI 服务,助力打造优质的用户体验

    案例介绍 金山办公与 NVIDIA 团队合作,通过 NVIDIA Tensor Core GPUTensorRT 提升图像文档识别与理解的推理效率;借助
    的头像 发表于 06-29 21:35 394次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> 加速 WPS Office AI 服务,助力打造优质的用户体验

    NVIDIA GPU 助力三维家打造 3D 垂类大模型,引领家居设计变革

    案例简介 广东三维家信息科技有限公司(以下简称“三维家”),通过采用 NVIDIA GPUNVIDIA 推理加速引擎 TensorRT,提升了家装设计效率,使超分渲染整体时间比常
    的头像 发表于 05-17 05:55 303次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> 助力三维家打造 3D 垂类大模型,引领家居设计变革