0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT助力模型性能提升

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-10-09 14:57 次阅读

夸克浏览器是阿里旗下的一个搭载极速AI引擎的高速智能浏览器。夸客以极速智能搜索为定位,致力于为用户提供交互更智能高效、内容更专业权威的新一代搜索引擎,同时也在产品极致体验上不断实现突破。

夸克目前不仅提供极致的搜索体验,也在探索以深度学习为基础的AI工具,通过高效的算法效果和全流程的性能优化,提供更好的用户体验。深度学习模型在实际应用的过程中,效果远好于传统模型,但由于算法复杂度过高,预测性能成为制约模型最终能否上线的核心问题。NVIDIA TensorRT通过计算图的优化、高效Kernel的实现及更高效硬件的利用加速模型预测耗时,使预测速度提升了1~3倍。

智能相机功能对ORC实时性提出新要求

夸克浏览器为用户提供智能相机功能,打开夸克APP后,通过相机入口(如下左图红框所示)进入智能相机功能,可以看到智能相机提供的具体功能(如下右图所示),包括万能扫描、学习辅导、万物识别等功能,这些功能对实时性要求极高,不少功能的底层核心技术依赖OCR。作为核心一环,OCR需要承接巨大流量,其效果及性能影响整个上层业务的用户体验。

OCR全流程包含检测、识别等多个模型以及复杂的前后处理,整体耗时10s级别,耗时过长严重影响用户体验,无法达到上线要求。主要影响性能的因素有以下三点:单个模型占用显存过大导致全流程无法部署在同一个GPU上,需要在多个GPU上进行数据传输,多GPU部署导致GPU利用率不高;模型本身性能慢,涉及复杂的检测和识别模型;全流程中模型前后处理复杂。

NVIDIA TensorRT助力模型性能提升

对比目前性能优化方案,夸克选择了采用NVIDIA TensorRT作为模型优化的底层框架对模型进行优化。TensorRT提供完整端到端模型性能优化工具,支持TF和ONNX等相关框架模型,使用后对模型性能带来巨大提升。

1、TensorRT对模型结构进行优化,使用高效Kernel实现,并且支持FP16和INT8量化。部分模型通过使用TensorRT,模型性能达到2-3倍的提升,并且显存降到原来的30%~50%。

2、有模型在使用FP16精度后,模型效果下降,夸克团队在NVIDIA工作人员的指导下,通过对模型设置混合精度,模型的性能较FP16略微下降,但整体效果能够达到要求。

3、对于部分转TensorRT失败的模型,对模型进行分析,单独抽取模型耗时的部分进行模型优化。

4、在使用TensorRT的过程中,通过Nsight Systems发现TensorRT OP在某些场景性能表现不尽人意,在NVIDIA工作人员指导下,通过调整OP的使用方式解决该问题。

TensorRT助力OCR全流程性能优化

通过使用NVIDIA TensorRT,夸克浏览器极大地提升了模型性能和降低模型本身显存占用,提高了GPU的使用率。在对整体流程和模型进行优化后,全部模型能够部署在单个GPU上,并且整体耗时在400ms内。

夸克技术人员表示:TensorRT文档齐全,功能使用方便,用户能够以低门槛使用其带来的优化,无需手动编写复杂模型转换工具,大大地减少了用户投入成本。对比其他模型优化框架,TensorRT具有更好的通用性、易用性和性能。

通过这次对OCR全流程的性能优化,夸克浏览器也积累了一套适合内部使用的模型性能优化方案,在遇到其他模型性能问题时也有的放矢。目前夸克已经把TensorRT相关优化工具集成到其浏览器的内部平台上,同时应用到其他业务的模型中,并取得良好的效果。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101703
  • AI
    AI
    +关注

    关注

    87

    文章

    26433

    浏览量

    264036
  • 浏览器
    +关注

    关注

    1

    文章

    974

    浏览量

    34410

原文标题:NVIDIA TensorRT 加速夸克浏览器AI应用,对模型性能提升起到关键作用

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 152次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V1
    的头像 发表于 01-17 09:30 364次阅读

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc
    的头像 发表于 01-09 16:41 390次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch<b class='flag-5'>模型</b>推理<b class='flag-5'>性能</b>的工具

    如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

    的特点和优势。然而,这些工具往往未能充分发挥 GPU 的性能。 为了解决这些问题,NVIDIA 推出了一种全新的解决方案—— Tens
    的头像 发表于 12-04 20:25 527次阅读
    如何在 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM 中支持 Qwen <b class='flag-5'>模型</b>

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA
    的头像 发表于 11-09 10:45 140次阅读
    <b class='flag-5'>NVIDIA</b> Merlin <b class='flag-5'>助力</b>陌陌推荐业务实现高<b class='flag-5'>性能</b>训练优化

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Mode
    的头像 发表于 10-27 20:05 523次阅读
    现已公开发布!欢迎使用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM 优化大语言<b class='flag-5'>模型</b>推理

    周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

    由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会,将帮助您了解 NVIDIA 开源大型语言模型(LLM)推理加速库
    的头像 发表于 10-26 09:05 193次阅读

    Nvidia 通过开源库提升 LLM 推理性能

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件
    的头像 发表于 10-23 16:10 323次阅读

    阿里云 &amp; NVIDIA TensorRT Hackathon 2023 决赛圆满收官,26 支 AI 团队崭露头角

    2023 年 9 月 29 日,由阿里云、NVIDIA 联合主办,阿里云天池平台承办的 “NVIDIA TensorRT Hackathon 2023 生成式 AI 模型优化赛” 圆满
    的头像 发表于 10-17 03:20 352次阅读
    阿里云 &amp; <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> Hackathon 2023 决赛圆满收官,26 支 AI 团队崭露头角

    可以使用已有的量化表作为输入来完成BModel模型的量化吗?

    可以使用已有的量化表(比如 TensorRT 量化后得到的量化表)作为输入 来完成BModel模型的量化吗?
    发表于 09-19 06:04

    学习资源 | NVIDIA TensorRT 全新教程上线

    NVIDIA TensorRT   是一个用于高效实现已训练好的深度学习模型推理过程的软件开发工具包,内含推理优化器和运行环境两部分,其目的在于让深度学习模型能够在 GPU 上以更高吞
    的头像 发表于 08-04 17:45 467次阅读
    学习资源 | <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> 全新教程上线

    即刻报名第三届 NVIDIA TensorRT Hackathon 生成式 AI 模型优化赛

    近日,由阿里云及 NVIDIA 联合举办的 “NVIDIA TensorRT Hackathon 2023 生成式 AI 模型优化赛”已正式启动。此大赛是由阿里云天池组织运营,
    的头像 发表于 07-17 19:45 335次阅读
    即刻报名第三届 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> Hackathon 生成式 AI <b class='flag-5'>模型</b>优化赛

    NVIDIA TensorRT与Apache Beam SDK的集成

    使用 NVIDIA TensorRT 在 Apache Beam 中简化和加速机器学习预测
    的头像 发表于 07-05 16:30 274次阅读

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60% ,满足了下游业务应用对模型训练速度的要求。通
    的头像 发表于 05-26 07:15 444次阅读
    <b class='flag-5'>NVIDIA</b> AI 技术<b class='flag-5'>助力</b> vivo 文本预训练大<b class='flag-5'>模型</b><b class='flag-5'>性能</b><b class='flag-5'>提升</b>

    NVIDIA GPU 助力三维家打造 3D 垂类大模型,引领家居设计变革

    案例简介 广东三维家信息科技有限公司(以下简称“三维家”),通过采用 NVIDIA GPU 和 NVIDIA 推理加速引擎 TensorRT提升了家装设计效率,使超分渲染整体时间比常
    的头像 发表于 05-17 05:55 303次阅读
    <b class='flag-5'>NVIDIA</b> GPU <b class='flag-5'>助力</b>三维家打造 3D 垂类大<b class='flag-5'>模型</b>,引领家居设计变革