0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NVIDIA Triton推理服务器加速语音识别的速度

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-05-13 10:40 次阅读

网易互娱 AI Lab 的研发人员,基于 Wenet 语音识别工具进行优化和创新,利用 NVIDIA Triton 推理服务器的 GPU Batch Inference 机制加速了语音识别的速度,并且降低了成本。

2001 年正式成立的网易游戏·互动娱乐事业群在经历了近 20 年的发展历程后,以“创新无边界,匠心造精品”为文化基石,创造了一系列大家耳熟能详的代表作品,如梦幻西游系列、大话西游系列、《阴阳师》、《第五人格》、《荒野行动》、《率土之滨》、《哈利波特:魔法觉醒》等。在 data.ai 公布的 2021 全球发行商 52 强榜单中,网易排名第二。

语音识别 AI 算法服务目前已经成为各个领域不可或缺的基础算法服务。网易互娱 AI Lab 为所有互娱游戏的玩家,CC 直播平台用户等提供完善的语音识别服务。语音识别服务每天都有大量的调用量,AI 推理的计算量繁重。

在网易游戏中,语音识别是一个调用量庞大的基础算法服务,如果在语音识别算法服务这里出现时耗或吞吐瓶颈的话,会因为语音内容识别过慢,使得用户使用体验大幅下降。

服务是基于开源框架 Wenet 优化开发,但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且热词和语言模型部分均采用了 Openfst,速度较慢,也不太方便使用。经过测试 CPU Float32 模式下解码,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署时还需要有拼接 Batch 的机制,batch inference 虽然在使用 CPU 做推理时没有太大的提升,但是能大大提升 GPU 的利用率。

基于以上的挑战,网易互娱 AI Lab 选择了采用 NVIDIA 在 Wenet 中开源的 Triton 部署方案来改进优化后进行 GPU 部署,使得语音识别速度提高,大幅降低时延和运营成本。

由于 Wenet 开源框架下的 Triton 推理服务器并没有考虑音频解码,显存溢出等问题,所以需要有个前端逻辑做音频解码处理和音频分段处理。并且因为 Triton 推理服务器组 batch 的机制是相同音频长度才会自动组成 batch 做推理,所以前端处理逻辑这块还加上了按秒 padding 的操作。整体流程如图所示。

68afeb16-d1df-11ec-bce3-dac502259ad0.jpg

其中前端处理流程如图所示:

68d173e4-d1df-11ec-bce3-dac502259ad0.jpg

NVIDIA Triton 推理服务器处理流程:

6911f87e-d1df-11ec-bce3-dac502259ad0.jpg

(图片来源于网易互娱授权)

其中 Triton 推理服务器中解码器部分是基于 Wenet 的热词方案而自研实现的热词解码器方案。

QPS,RTF 在 5 秒音频下,CPU 设备和 GPU 设备对比,CPU 为 36 核机器, GPU 为单卡 T4:

692de6e2-d1df-11ec-bce3-dac502259ad0.jpg

(图片来源于网易互娱授权)

由表格可知,对比 CPU-FP32 与 GPU-FP16,单卡 T4 的推理能力基本相当于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)机器的 4 倍。并且实验测试可以得知 FP16 与 FP32 的 WER 基本无损。

自研热词解码器的方法结果展示:

694de352-d1df-11ec-bce3-dac502259ad0.png

6967e824-d1df-11ec-bce3-dac502259ad0.png

(图片来源于网易互娱授权)

这里 GPU 的效果采用自研的热词增强的方法,识别率在热词这块能有绝对 0.8% 的性能提升,而 Wenet 开源的方法大概是 0.5%。并且自研热词实例的构建耗时基本可以忽略不计。

整体来看 GPU 的方案在识别率基本无损的情况下,单卡 T4 比 36 核 CPU 机器提高近 4 倍的 QPS,单个音频 RTF 测试下,包含音频解码等损耗情况下也能提高近 3 倍,并且也能够支持热词增强功能,让机器成本和识别速度都得到了很好的优化。

网易互娱广州 AI Lab 资深 AI 算法工程师丁涵宇表示:“目前该方案已在网易互娱 AI Lab 语音识别服务落地,大大的降低了识别时延和机器成本。后续,我们还将与英伟达一起研究将热词增强的方法在 GPU 中实现,探索的极致的语音识别推理性能。”

原文标题:NVIDIA Triton 助力网易互娱 AI Lab,改善语音识别效率及成本

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4541

    浏览量

    101475
  • AI
    AI
    +关注

    关注

    87

    文章

    26129

    浏览量

    263712
  • 语音识别
    +关注

    关注

    37

    文章

    1633

    浏览量

    111795

原文标题:NVIDIA Triton 助力网易互娱 AI Lab,改善语音识别效率及成本

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语音识别的技术历程及工作原理

    语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。
    的头像 发表于 03-22 16:58 443次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别的</b>技术历程及工作原理

    使用NVIDIA Triton推理服务器加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器加速 AI
    的头像 发表于 02-29 14:04 171次阅读

    如何使用iperf测量AURIX以太网服务器速度

    服务器和客户端的以太网速度。 如何使用iperf测量AURIX以太网服务器速度? 我的PC作为客户端连接到AURIX服务器, CAN 使用
    发表于 01-29 08:08

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Tri
    的头像 发表于 01-17 09:30 340次阅读

    情感语音识别的挑战与未来趋势

    。 二、情感语音识别的挑战 情感表达的复杂性:人类的情感表达非常复杂,不仅涉及到语音的音调、音色和音量等,还与语言表达、肢体动作、面部表情等多个方面有关。准确识别和理解这些复杂情感表达
    的头像 发表于 11-30 11:24 223次阅读

    情感语音识别的应用与挑战

    一、引言 情感语音识别是一种通过分析人类语音中的情感信息实现智能化和个性化人机交互的技术。本文将探讨情感语音识别的应用领域、优势以及所面临的
    的头像 发表于 11-30 10:40 238次阅读

    离线语音识别及控制是怎样的技术?

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连
    发表于 11-24 17:41

    情感语音识别的研究方法与实践

    一、引言 情感语音识别是指通过计算机技术和人工智能算法自动识别和理解人类语音中的情感信息。为了提高情感语音
    的头像 发表于 11-16 16:26 224次阅读

    情感语音识别的前世今生

    的支持。本文将探讨情感语音识别的前世今生,包括其发展历程、应用场景、面临的挑战以及未来发展趋势。 二、情感语音识别的发展历程 起步阶段:早期的情感
    的头像 发表于 11-12 17:33 282次阅读

    周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

    ,使用 NVIDIA Triton TM  推理服务器进行端到端部署 LLM Serving,以及金融行业的 AI、NLP/LLM 应用场景、客户案例。 通过本次活动,您将了解基于上述
    的头像 发表于 10-26 09:05 179次阅读

    如何用PyArmNN加速树莓派上的ML推理

    。氖是设计: •更快的视频处理 •图像处理 •语音识别 •机器学习 Neon提供单指令多数据(SIMD)指令,其中多处理 管道中的元素同时对多个数据点执行操作。Arm NN提供 利用Neon后端功能
    发表于 08-02 15:40

    cdn加速国外服务器(国外云服务器

    cdn加速国外服务器:是指通过在全球分布的服务器上缓存国外服务器的内容,使用户能够快速访问国外服务器上的内容。CDN通过将内容分发到离用户最
    的头像 发表于 08-02 14:32 536次阅读

    如何使用NVIDIA Triton 推理服务器来运行推理管道

    使用集成模型在 NVIDIA Triton 推理服务器上为 ML 模型管道提供服务
    的头像 发表于 07-05 16:30 1108次阅读
    如何使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b> <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>来运行<b class='flag-5'>推理</b>管道

    NVIDIA GPU 加速 WPS Office AI 服务,助力打造优质的用户体验

    案例介绍 金山办公与 NVIDIA 团队合作,通过 NVIDIA Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率;借助
    的头像 发表于 06-29 21:35 370次阅读
    <b class='flag-5'>NVIDIA</b> GPU <b class='flag-5'>加速</b> WPS Office AI <b class='flag-5'>服务</b>,助力打造优质的用户体验

    语音识别技术的概念及应用前景

    相应的操控,反馈时可以通过播放预设的声音或通过语音合成来合成声音播放,输出结果。当前处理智能语音有多种方式,常见的有在线语音、离线语音等分类。因为智能
    发表于 05-27 09:41