0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorRT和Triton助力微信OCR降低耗时和成本

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

简介

• 本案例中通过NVIDIA T4 GPUTensorRT和Triton, 帮助微信OCR降低整体耗时46%, 并将系统的失败率降低81%,同时降低了高达78%的服务器数量。

• 本案例主要应用到 NVIDIA GPU ,TensorRT和Triton。

客户简介

腾讯微信是一款跨平台的通讯工具。支持通过手机网络发送语音、图片、视频和文字等。截至2021年6月,微信在全球拥有超过12亿活跃用户,是国内活跃用户最多的社交软件。

微信识物是一款主打物品识别的 AI 产品,通过相机拍摄物品,更高效、更智能地获取信息。2020 年,微信识物拓展了更多识别场景,上线了微信版的图片搜索。打开微信扫一扫,左滑切换到“识物”功能,对准想要了解的物品正面,可以获取对应的物品信息,包括物品百科、相关资讯、相关商品

2021年1月, 微信发布的微信8.0,版本更新支持图片文字提取的功能。用户在聊天界面和朋友圈中长按图片就可以提取图片中文字,然后一键转发、复制或收藏。

挑战

微信识物包含检测、图像召回、信息提炼等环节,OCR主要包括识别和检测,这两种应用都有非常大的计算量,在用Pytorch进行模型的推理时,一方面时延特别大,导致用户体验受损;另一方面,显存占用很大,单张NVIDIA T4上部署的模型数比较少,导致推理请求的并发数上不去,请求失败的概率太高,只能通过增加机器的方式来提高并发能力,业务部署成本较高。再次,使用的模型经常变化,而业务需要更换后的模型能够快速地加速和上线部署。

方案

基于以上挑战,腾讯微信选择了采用NVIDIA 的TensorRT对模型进行推理加速,并利用NVIDIA Triton推理服务器在T4 GPU上进行在线部署,在提升用户体验的同时,大幅降低了服务成本。

1、 通过使用TensorRT对微信识物和OCR的模型进行加速,在都使用FP32的情况下,与Pytorch相对,时延降低50%左右。

2、 在OCR的识别和检测阶段,使用TensorRT结合NVIDIA T4 GPU 的FP16 Tensor Core,在保证精度的同时,识别的时延进一步降低了50%,检测降低了20%。

3、 在微信识物的分类和检测任务中,通过使用NVIDIA T4 GPU 的int8 Tensor Core,并结合QAT,在满足精度要求的前提下,进一步大幅提升了性能。

4、 通过使用FP16和int8 低精度模式,在大幅降低推理时延的同时,大大减少了显存的占用,在FP16模式下,单模型显存占用仅占FP32模式的40%–50%, 而在int8模式下,单模型显存占用仅占FP32模式的30%左右。在提高单张T4卡上部署的模型数量的同时,大幅提高了单GPU的推理请求并发能力。

5、 Triton的dynamic batch和多实例等特性,帮助微信将在满足时延要求的同时,提高了系统整体的并发能力,将系统失败降低了81%。

6、 TensorRT可以对模型进行快速的加速,Triton则可以对加速后的模型进行快速的部署,满足了业务对修改后的模型进行快速部署的需求,同时也大大减少了工程人员的工作量。

效果

通过使用NVIDIA的TensorRT对微信识物和OCR的模型进行加速,在降低单次推理时延50%以上的同时,节约了多达64%的显存。结合Triton的dynamic batch和多实例的功能,OCR的整体时延降低了46%,系统失败率降低了81%。大大提高了用户的体验,并且服务器的数量减少了多达78%,极大降低了服务的成本。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110291
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136212
  • 服务器
    +关注

    关注

    14

    文章

    10440

    浏览量

    91851
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电脑软件问题

    电脑:打视频的时候”ToDesk提醒您,如需要在会议中使用主控端的摄像头画面请在主控端工具栏打开摄像头映射功能“怎么解决?
    发表于 04-17 22:42

    重磅!文远知行Robotaxi登陆生态 接入腾讯出行服务实现一键呼叫

    内即可便捷完成Robotaxi的呼叫、下单与支付全流程,让自动驾驶出行真正融入日常。 作为生态内的高频出行服务入口,「腾讯出行服务」小程序将为文远知行Robotaxi带来海量精准用户触达,助力其快速渗透各类日常出行场景。随着
    的头像 发表于 03-13 11:58 238次阅读
    重磅!文远知行Robotaxi登陆<b class='flag-5'>微</b><b class='flag-5'>信</b>生态 接入腾讯出行服务实现一键呼叫

    工业级OCR手持终端怎么选?国产OCR智能识别pda实测

    工业环境专用OCR智能PDA怎么选?鸟鸟科技N70Socr具备IP67防尘防水+1.5米抗跌落,5000mAh可拆卸电池支持24小时轮班作业。专业OCR扫描头+斑马/霍尼二维码引擎双模组,285g人体工学设计,让高强度数据采集更轻松。点击查看详细防护测试与续航实测数据!
    的头像 发表于 02-07 17:45 602次阅读
    工业级<b class='flag-5'>OCR</b>手持终端怎么选?国产<b class='flag-5'>OCR</b>智能识别pda实测

    爱芯与工部电子第五研究所达成战略合作

    近日,无锡中爱芯电子有限公司与工部电子第五研究所(中国赛宝实验室)正式签署车规项目全面合作协议,标志着国产芯片企业与权威技术机构深度携手,共同为车规级芯片产业筑牢质量根基,助力汽车电子产业链自主可控。
    的头像 发表于 02-06 14:16 733次阅读

    HarmonyOS首登公开课,分享跨平台适配与体验提升实践经验

    近日,2026公开课PRO在广州举行。值得关注的是,HarmonyOS开发专家首次以官方分享嘉宾身份亮相开发者专场,并围绕“跨平台适配与体验提升”这一主题,深入剖析了小程序在跨
    的头像 发表于 02-02 09:22 583次阅读
    HarmonyOS首登<b class='flag-5'>微</b><b class='flag-5'>信</b>公开课,分享跨平台适配与体验提升实践经验

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力

    落地过程中,企业逐渐意识到:** 制约 OCR 应用进一步扩展的核心因素,已不再是模型准确率本身,而是整体推理性能与部署成本。 具体来说,规模化 OCR 应用主要面临以下几方面挑战: 吞吐量(FPS)不足 ,难以支撑高并发或多路
    的头像 发表于 01-22 21:02 410次阅读
    DeepX <b class='flag-5'>OCR</b>:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 <b class='flag-5'>OCR</b> 能力

    瑞芯(EASY EAI)RV1126B OCR文字识别

    1.OCR文字识别简介文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行文字的识别。所以一般包含两个步骤:文字检测:解决的问题是哪里有文字,文字的范围
    的头像 发表于 01-12 10:19 7605次阅读
    瑞芯<b class='flag-5'>微</b>(EASY EAI)RV1126B <b class='flag-5'>OCR</b>文字识别

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1504次阅读
    <b class='flag-5'>TensorRT</b>-LLM的大规模专家并行架构设计

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    摘要 :小语种OCR研发的核心瓶颈在于高质量标注数据的稀缺与高昂成本。本文介绍一种创新的自动化标注方案,利用 PaddleOCR 进行文本检测与裁剪,并调用 ERNIE 4.5 大模型进行双重预测
    的头像 发表于 08-29 11:26 3942次阅读
    小语种<b class='flag-5'>OCR</b>标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    鸿蒙系统怎么安装企业

    系统自带的应用市场中无法下载企业,卓易通中的无法用登录,使用不了
    发表于 08-26 15:43

    如何利用OCR技术实现高效集装箱箱号识别?

    在现代物流和海关监管领域,快速准确地识别集装箱箱号是提升通关效率、降低运营成本的关键。OCR(光学字符识别)技术的应用,为这一需求提供了智能化解决方案。通过结合高清成像设备和先进的算法,OCR
    的头像 发表于 08-12 10:48 1054次阅读
    如何利用<b class='flag-5'>OCR</b>技术实现高效集装箱箱号识别?

    小程序+淘宝API,无缝购物体验提升复购率!

    ​ 在当今电商竞争激烈的时代,消费者渴望更便捷、流畅的购物体验。作为中国最大的社交平台,拥有庞大的用户基础;淘宝则是电商巨头,提供丰富的商品资源。通过将小程序与淘宝API无缝整
    的头像 发表于 07-29 14:35 930次阅读
    <b class='flag-5'>微</b><b class='flag-5'>信</b>小程序+淘宝API,无缝购物体验提升复购率!

    进迭时空同构融合RISC-V AI CPU的Triton算子编译器实践

    Triton是由OpenAI开发的一个开源编程语言和编译器,旨在简化高性能GPU内核的编写。它提供了类似Python的语法,并通过高级抽象降低了GPU编程的复杂性,同时保持了高性能。目前
    的头像 发表于 07-15 09:04 2354次阅读
    进迭时空同构融合RISC-V AI CPU的<b class='flag-5'>Triton</b>算子编译器实践

    使用NVIDIA TritonTensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA TritonTensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 2167次阅读
    使用NVIDIA <b class='flag-5'>Triton</b>和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您多添加点,参考我们的ocr识别训练数据集 请问训练id是?
    发表于 05-28 06:46