0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NVIDIA Triton推理服务器加速语音识别的速度

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-05-13 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

网易互娱 AI Lab 的研发人员,基于 Wenet 语音识别工具进行优化和创新,利用 NVIDIA Triton 推理服务器的 GPU Batch Inference 机制加速了语音识别的速度,并且降低了成本。

2001 年正式成立的网易游戏·互动娱乐事业群在经历了近 20 年的发展历程后,以“创新无边界,匠心造精品”为文化基石,创造了一系列大家耳熟能详的代表作品,如梦幻西游系列、大话西游系列、《阴阳师》、《第五人格》、《荒野行动》、《率土之滨》、《哈利波特:魔法觉醒》等。在 data.ai 公布的 2021 全球发行商 52 强榜单中,网易排名第二。

语音识别 AI 算法服务目前已经成为各个领域不可或缺的基础算法服务。网易互娱 AI Lab 为所有互娱游戏的玩家,CC 直播平台用户等提供完善的语音识别服务。语音识别服务每天都有大量的调用量,AI 推理的计算量繁重。

在网易游戏中,语音识别是一个调用量庞大的基础算法服务,如果在语音识别算法服务这里出现时耗或吞吐瓶颈的话,会因为语音内容识别过慢,使得用户使用体验大幅下降。

服务是基于开源框架 Wenet 优化开发,但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且热词和语言模型部分均采用了 Openfst,速度较慢,也不太方便使用。经过测试 CPU Float32 模式下解码,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署时还需要有拼接 Batch 的机制,batch inference 虽然在使用 CPU 做推理时没有太大的提升,但是能大大提升 GPU 的利用率。

基于以上的挑战,网易互娱 AI Lab 选择了采用 NVIDIA 在 Wenet 中开源的 Triton 部署方案来改进优化后进行 GPU 部署,使得语音识别速度提高,大幅降低时延和运营成本。

由于 Wenet 开源框架下的 Triton 推理服务器并没有考虑音频解码,显存溢出等问题,所以需要有个前端逻辑做音频解码处理和音频分段处理。并且因为 Triton 推理服务器组 batch 的机制是相同音频长度才会自动组成 batch 做推理,所以前端处理逻辑这块还加上了按秒 padding 的操作。整体流程如图所示。

68afeb16-d1df-11ec-bce3-dac502259ad0.jpg

其中前端处理流程如图所示:

68d173e4-d1df-11ec-bce3-dac502259ad0.jpg

NVIDIA Triton 推理服务器处理流程:

6911f87e-d1df-11ec-bce3-dac502259ad0.jpg

(图片来源于网易互娱授权)

其中 Triton 推理服务器中解码器部分是基于 Wenet 的热词方案而自研实现的热词解码器方案。

QPS,RTF 在 5 秒音频下,CPU 设备和 GPU 设备对比,CPU 为 36 核机器, GPU 为单卡 T4:

692de6e2-d1df-11ec-bce3-dac502259ad0.jpg

(图片来源于网易互娱授权)

由表格可知,对比 CPU-FP32 与 GPU-FP16,单卡 T4 的推理能力基本相当于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)机器的 4 倍。并且实验测试可以得知 FP16 与 FP32 的 WER 基本无损。

自研热词解码器的方法结果展示:

694de352-d1df-11ec-bce3-dac502259ad0.png

6967e824-d1df-11ec-bce3-dac502259ad0.png

(图片来源于网易互娱授权)

这里 GPU 的效果采用自研的热词增强的方法,识别率在热词这块能有绝对 0.8% 的性能提升,而 Wenet 开源的方法大概是 0.5%。并且自研热词实例的构建耗时基本可以忽略不计。

整体来看 GPU 的方案在识别率基本无损的情况下,单卡 T4 比 36 核 CPU 机器提高近 4 倍的 QPS,单个音频 RTF 测试下,包含音频解码等损耗情况下也能提高近 3 倍,并且也能够支持热词增强功能,让机器成本和识别速度都得到了很好的优化。

网易互娱广州 AI Lab 资深 AI 算法工程师丁涵宇表示:“目前该方案已在网易互娱 AI Lab 语音识别服务落地,大大的降低了识别时延和机器成本。后续,我们还将与英伟达一起研究将热词增强的方法在 GPU 中实现,探索的极致的语音识别推理性能。”

原文标题:NVIDIA Triton 助力网易互娱 AI Lab,改善语音识别效率及成本

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296806
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115569

原文标题:NVIDIA Triton 助力网易互娱 AI Lab,改善语音识别效率及成本

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    加速是如何隐藏源服务器ip的

    服务器IP是保护服务器的一项重要安全措施。 华纳云 为大家分享受一下内容: 隐藏源服务器IP的主要目的是防止恶意攻击者通过直接访问服务器IP地址来发动攻击,同时提高
    的头像 发表于 09-12 16:31 438次阅读

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速从人形机器人到机器人工厂等基于
    的头像 发表于 08-27 11:48 2008次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1760次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度
    的头像 发表于 06-12 15:37 1306次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS应用的最佳实践

    基于RAKsmart云服务器的AI大模型实时推理方案设计

    面对高并发请求、严格的响应延迟要求及波动的业务负载,传统本地化部署的算力瓶颈愈发显著。RAKsmart云服务器凭借其弹性计算资源池、分布式网络架构与全栈AI加速能力,为AI大模型实时推理提供了从硬件到软件层的系统性解决方案。
    的头像 发表于 05-13 10:33 467次阅读

    AI 推理服务器都有什么?2025年服务器品牌排行TOP10与选购技巧

    根据行业数据,AI推理服务器的性能差异可以达到10倍以上。比如,用普通服务器跑一个700亿参数的大模型,可能需要30秒才能出结果,而用顶级服务器可能只需要3秒。这就是为什么选对
    的头像 发表于 04-09 11:06 7378次阅读
    AI <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>都有什么?2025年<b class='flag-5'>服务器</b>品牌排行TOP10与选购技巧

    推理服务器的7大可靠性指标,宽温/抗震/EMC防护实测数据分享

    在 AIoT 设备突破百亿级的今天,边缘计算推理服务器已成为智能时代的 "神经末梢"。根据 Gartner 预测,到 2025 年将有 75% 的企业关键任务部署在边缘端。然而,工业级应用场景(如智能工厂、无人矿山、车路协同)对推理
    的头像 发表于 04-02 10:43 843次阅读
    <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>的7大可靠性指标,宽温/抗震/EMC防护实测数据分享

    国产推理服务器如何选择?深度解析选型指南与华颉科技实战案例

    人工智能技术的爆发催生了对推理算力的迫切需求,而进口服务器的高成本与技术依赖性,推动了国产推理服务器的快速发展。据IDC预测,到2025年,中国AI
    的头像 发表于 03-24 17:11 944次阅读
    国产<b class='flag-5'>推理</b><b class='flag-5'>服务器</b>如何选择?深度解析选型指南与华颉科技实战案例

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速计算和
    的头像 发表于 03-21 12:01 1186次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力企业<b class='flag-5'>加速</b>代理式AI<b class='flag-5'>推理</b>

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    Triton 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务
    的头像 发表于 03-20 15:03 1077次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务
    发表于 03-19 15:24 471次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 AI <b class='flag-5'>推理</b>

    浪潮信息发布元脑R1推理服务器

    。 DeepSeek R1 671B模型作为业界领先的深度学习模型,其部署一直面临着较高的难度和成本。而浪潮信息的元脑R1推理服务器通过一系列的技术创新,成功打破了这一瓶颈。该服务器能够充分
    的头像 发表于 02-17 10:32 1041次阅读

    中国加速服务器市场前景广阔

    近日,据IDC最新报告显示,中国加速服务器市场在未来几年内将呈现出强劲的增长态势。预计到2024年,该市场规模将达到190亿美元,与2023年相比,将实现87%的显著增长。这一数据不仅彰显了中国加速
    的头像 发表于 01-07 10:22 713次阅读

    GPU加速服务器怎么用的

    GPU加速服务器是将GPU硬件与云计算服务相结合,通过云服务提供商的平台,用户可以根据需求灵活租用带有GPU资源的虚拟机实例。那么,GPU加速
    的头像 发表于 12-26 11:58 853次阅读

    Triton编译在机器学习中的应用

    1. Triton编译概述 Triton编译NVIDIA Triton
    的头像 发表于 12-24 18:13 1634次阅读