0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过NVIDIA TensorRT加速夸克浏览器AI应用

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-21 14:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

客户简介

• 本案例中通过TensorRT加速夸克浏览器视频图像相关模型的预测性能,比如待上线业务的相关流程整体性能达不到线上要求,通过对全流程的优化以及使用NVIDIA TensorRT加速模型后,最终整体性能由10s级别降到400ms内,其中模型性能加速1~3倍,显存占用下降50%。

• 本案例主要应用到NVIDIA TensorRT、NVIDIA Nsight Systems

客户简介及应用背景

夸克浏览器是阿里旗下的一个搭载极速AI引擎的高速智能浏览器。夸客以极速智能搜索为定位,致力于为用户提供交互更智能高效、内容更专业权威的新一代搜索引擎,同时也在产品极致体验上不断实现突破。

夸克目前不仅提供极致的搜索体验,也在探索以深度学习为基础的AI工具,通过高效的算法效果和全流程的性能优化,提供更好的用户体验。深度学习模型在实际应用的过程中,效果远好于传统模型,但由于算法复杂度过高,预测性能成为制约模型最终能否上线的核心问题。NVIDIA TensorRT通过计算图的优化、高效Kernel的实现及更高效硬件的利用加速模型预测耗时,使预测速度提升了1~3倍。

客户挑战

夸克浏览器为用户提供智能相机功能,打开夸克APP后,通过相机入口(如下左图红框所示)进入智能相机功能,可以看到智能相机提供的具体功能(如下右图所示),包括万能扫描、学习辅导、万物识别等功能,这些功能对实时性要求极高,不少功能的底层核心技术依赖OCR。作为核心一环,OCR需要承接巨大流量,其效果及性能影响整个上层业务的用户体验。

OCR全流程包含检测、识别等多个模型以及复杂的前后处理,整体耗时10s级别,耗时过长严重影响用户体验,无法达到上线要求。主要影响性能的因素有以下三点:单个模型占用显存过大导致全流程无法部署在同一个GPU上,需要在多个GPU上进行数据传输,多GPU部署导致GPU利用率不高;模型本身性能慢,涉及复杂的检测和识别模型;全流程中模型前后处理复杂。

应用方案

对比目前性能优化方案,夸克选择了采用NVIDIA TensorRT作为模型优化的底层框架对模型进行优化。TensorRT提供完整端到端模型性能优化工具,支持TF和ONNX等相关框架模型,使用后对模型性能带来巨大提升。

TensorRT对模型结构进行优化,使用高效KERNEL实现,并且支持FP16和INT8量化。部分模型通过使用TensorRt后,模型性能有2到3倍的提升,并且显存降到原来的30%~50%。

有模型在使用FP16精度后,模型效果下降,夸克团队在NVIDIA的工作人员的指导下,通过对模型设置混合精度后,模型的性能较FP16稍微下降,但是整体效果也达到要求。

对于部分转TensorRT失败的模型,我们对模型进行分析,把模型耗时的部分单独抽取出来,单独做模型优化。

在使用TensorRT的过程中,通过Nsight Systems发现TensorRT OP在某些场景性能表现不尽人意,最后在NVIDIA工作人员指导下,通过调整OP的使用方式解决该问题。

使用效果及影响

通过使用NVIDIA TensorRT,夸克浏览器极大地提升了模型性能和降低模型本身显存占用,提高了GPU的使用率。在对整体流程和模型进行优化后,全部模型能够部署在单个GPU上,并且整体耗时在400ms内。

夸克技术人员表示:TensorRT文档齐全,功能使用方便,用户能够以低门槛使用其带来的优化,无需手动编写复杂模型转换工具,大大地减少了用户投入成本。对比其他模型优化框架,TensorRT具有更好的通用性、易用性和性能。

通过这次对OCR全流程的性能优化,夸克浏览器也积累了一套适合内部使用的模型性能优化方案,在遇到其他模型性能问题时也有的放矢。目前夸克已经把TensorRT相关优化工具集成到其浏览器的内部平台上,同时应用到其他业务的模型中,并取得良好的效果。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109092
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVID
    的头像 发表于 12-01 09:25 490次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 755次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和
    的头像 发表于 07-16 09:16 1862次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1756次阅读

    老电视如何安装浏览器

    2017年购买的夏普老电视,1.5G+8G存储,网上下的浏览器APK文件在电视内打开就弹出“解析程序包出现问题”。 未知来源选项已打开,存储空间清空到只剩下三个应用(只占用300M左右),基本可
    发表于 06-01 18:57

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 A
    的头像 发表于 05-27 14:03 760次阅读

    NVIDIA Cosmos加速机器人和自动驾驶汽车物理AI发展

    NVIDIA Cosmos 通过可预测未来世界状态的世界基础模型加速物理 AI 的发展。
    的头像 发表于 04-24 11:01 938次阅读
    <b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>加速</b>机器人和自动驾驶汽车物理<b class='flag-5'>AI</b>发展

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA
    的头像 发表于 03-21 12:01 1176次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力企业<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b>推理

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首
    发表于 03-19 15:24 470次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> 推理

    edge浏览器识别 latex语法插件

    默认的浏览器是没有latex识别功能的,容易显示为乱码或者源码,无法正常识别。本插件需要在浏览器的扩展程序菜单下安装,能在edge下完美运行。本插件是免费插件。
    发表于 03-17 18:03 1次下载

    腾讯AI To C业务大调整:QQ浏览器、搜狗等转入CSIG

    腾讯内部近期完成了一次重要的产品及团队调整,标志着其AI To C业务战略的新一轮变革。据悉,QQ浏览器、搜狗输入法以及ima等多款产品和应用,将正式并入CSIG(云与智慧产业事业群)。 此次调整
    的头像 发表于 02-20 09:22 1319次阅读

    E2000 Speedometer测试浏览器性能

    设计的基准测试工具,旨在通过模拟用户交互来测量 Web应用的响应速度 。其核心目标是尽可能真实地反映现实世界的Web体验。当浏览器在Speedometer上的得分提升时,实际用户的体验也应得到改善
    发表于 01-10 21:33

    2024年12月浏览器市场份额报告:谷歌Chrome稳居榜首

    根据市场调查机构Statcounter最新发布的权威报告,2024年12月全球浏览器市场份额排行榜中,谷歌Chrome浏览器再次以卓越的表现稳居首位。数据显示,Chrome的市场占有率高达68.38
    的头像 发表于 01-02 14:58 3225次阅读

    讯飞星火浏览器插件全新升级

    时刻陪伴,星火插件让你的浏览器变成真正的生产力工具。
    的头像 发表于 12-25 09:48 1750次阅读

    Chrome浏览器优化Android性能,骁龙8至尊版表现突出

    谷歌近日对Chrome浏览器的最新版本进行了重大更新,特别针对Android设备进行了性能优化,特别是对于搭载骁龙8至尊版处理的旗舰设备而言。 自Chrome M112版本以来,Android
    的头像 发表于 12-13 14:44 1724次阅读