创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

利用NVIDIA Triton推理服务器加速语音识别的速度

NVIDIA_China 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-05-13 10:40 次阅读

网易互娱 AI Lab 的研发人员,基于 Wenet 语音识别工具进行优化和创新,利用 NVIDIA Triton 推理服务器的 GPU Batch Inference 机制加速了语音识别的速度,并且降低了成本。

2001 年正式成立的网易游戏·互动娱乐事业群在经历了近 20 年的发展历程后,以“创新无边界,匠心造精品”为文化基石,创造了一系列大家耳熟能详的代表作品,如梦幻西游系列、大话西游系列、《阴阳师》、《第五人格》、《荒野行动》、《率土之滨》、《哈利波特:魔法觉醒》等。在 data.ai 公布的 2021 全球发行商 52 强榜单中,网易排名第二。

语音识别 AI 算法服务目前已经成为各个领域不可或缺的基础算法服务。网易互娱 AI Lab 为所有互娱游戏的玩家,CC 直播平台用户等提供完善的语音识别服务。语音识别服务每天都有大量的调用量,AI 推理的计算量繁重。

在网易游戏中,语音识别是一个调用量庞大的基础算法服务,如果在语音识别算法服务这里出现时耗或吞吐瓶颈的话,会因为语音内容识别过慢,使得用户使用体验大幅下降。

服务是基于开源框架 Wenet 优化开发,但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++++ 的,并且热词和语言模型部分均采用了 Openfst,速度较慢,也不太方便使用。经过测试 CPU Float32 模式下解码,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署时还需要有拼接 Batch 的机制,batch inference 虽然在使用 CPU 做推理时没有太大的提升,但是能大大提升 GPU 的利用率。

基于以上的挑战,网易互娱 AI Lab 选择了采用 NVIDIA 在 Wenet 中开源的 Triton 部署方案来改进优化后进行 GPU 部署,使得语音识别速度提高,大幅降低时延和运营成本。

由于 Wenet 开源框架下的 Triton 推理服务器并没有考虑音频解码,显存溢出等问题,所以需要有个前端逻辑做音频解码处理和音频分段处理。并且因为 Triton 推理服务器组 batch 的机制是相同音频长度才会自动组成 batch 做推理,所以前端处理逻辑这块还加上了按秒 padding 的操作。整体流程如图所示。

68afeb16-d1df-11ec-bce3-dac502259ad0.jpg

其中前端处理流程如图所示:

68d173e4-d1df-11ec-bce3-dac502259ad0.jpg

NVIDIA Triton 推理服务器处理流程:

6911f87e-d1df-11ec-bce3-dac502259ad0.jpg

(图片来源于网易互娱授权)

其中 Triton 推理服务器中解码器部分是基于 Wenet 的热词方案而自研实现的热词解码器方案。

QPS,RTF 在 5 秒音频下,CPU 设备和 GPU 设备对比,CPU 为 36 核机器, GPU 为单卡 T4:

692de6e2-d1df-11ec-bce3-dac502259ad0.jpg

(图片来源于网易互娱授权)

由表格可知,对比 CPU-FP32 与 GPU-FP16,单卡 T4 的推理能力基本相当于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)机器的 4 倍。并且实验测试可以得知 FP16 与 FP32 的 WER 基本无损。

自研热词解码器的方法结果展示:

694de352-d1df-11ec-bce3-dac502259ad0.png

6967e824-d1df-11ec-bce3-dac502259ad0.png

(图片来源于网易互娱授权)

这里 GPU 的效果采用自研的热词增强的方法,识别率在热词这块能有绝对 0.8% 的性能提升,而 Wenet 开源的方法大概是 0.5%。并且自研热词实例的构建耗时基本可以忽略不计。

整体来看 GPU 的方案在识别率基本无损的情况下,单卡 T4 比 36 核 CPU 机器提高近 4 倍的 QPS,单个音频 RTF 测试下,包含音频解码等损耗情况下也能提高近 3 倍,并且也能够支持热词增强功能,让机器成本和识别速度都得到了很好的优化。

网易互娱广州 AI Lab 资深 AI 算法工程师丁涵宇表示:“目前该方案已在网易互娱 AI Lab 语音识别服务落地,大大的降低了识别时延和机器成本。后续,我们还将与英伟达一起研究将热词增强的方法在 GPU 中实现,探索的极致的语音识别推理性能。”

原文标题:NVIDIA Triton 助力网易互娱 AI Lab,改善语音识别效率及成本

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

  • NVIDIA
    +关注

    关注

    14

    文章

    2563

    浏览量

    94699
  • AI
    AI
    +关注

    关注

    85

    文章

    20063

    浏览量

    235023
  • 语音识别
    +关注

    关注

    33

    文章

    1259

    浏览量

    104366

原文标题:NVIDIA Triton 助力网易互娱 AI Lab,改善语音识别效率及成本

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    INDEMIND RBN10家用机器人AI解决方案的多种技术优势

    与大多数电子产品不同,在选购扫地机器人时,由于人们对机器人缺乏了解,而产品的一些较直观的指标参数,如....
    发表于 06-24 17:24 122次 阅读

    普强信息专注打造最懂客户需要的实时助手产品

    普强全新升级实时坐席助手系统,面对企业实际业务场景需要,深度结合企业业务场景,通过深度学习及神经网络....
    的头像 普强信息 发表于 06-24 16:25 235次 阅读

    NVIDIA Riva 2.0的功能亮点有哪些

    NVIDIA Riva 可提供经过全面优化的流程,用于部署实时 AI 语音应用(例如转录和虚拟助理)....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-24 15:33 106次 阅读

    艺术家使用NVIDIA Omniverse创造出照明效果逼真的3D模型

    创意人员使用 Autodesk、Adobe Substance 3D 应用和 NVIDIA Omni....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-24 15:27 60次 阅读

    使用AI技术推动精准医疗的发展

    来自英国的 NVIDIA 初创加速计划成员 PrecisionLife 使用 AI 主导的数据分析确....
    的头像 NVIDIA英伟达 发表于 06-24 15:21 219次 阅读

    NLP的工作原理是什么 有哪些用例

    自然语言处理是一项利用计算机和软件获取人类语言(书面或口语)含义的技术。
    的头像 NVIDIA英伟达 发表于 06-24 15:19 48次 阅读

    NVIDIA DOCA数据处理器软件正式开放

    NVIDIA 联合发起 Linux 基金会项目,致力于实现数据中心创新的大众化;进一步向软件提供商、....
    的头像 NVIDIA英伟达 发表于 06-24 15:00 66次 阅读

    旷视以AI技术助力数字乡村快发展

    从远程问诊,到智能公交,再到智慧教育,随着 5G、云计算、人工智能等技术的飞速发展,如今的乡村也和城....
    的头像 旷视MEGVII 发表于 06-24 14:59 122次 阅读

    商汤科技以AI技术助力华侨城集团数字化建设

    赋能智慧文旅,商汤AI加码华侨城集团数字化建设。
    的头像 商汤科技SenseTime 发表于 06-24 14:03 386次 阅读

    旷视用AI为数字乡村建设贡献力量 助力数字乡村快发展

    从远程问诊,到智能公交,再到智慧教育,随着 5G、云计算、人工智能等技术的飞速发展,如今的乡村也和城....
    的头像 科技绿洲 发表于 06-24 11:05 335次 阅读

    NVIDIA DRIVE助力小马智行控制器大规模量产

    6 月 22 日,领先自动驾驶企业小马智行宣布正式对客户交付基于 NVIDIA DRIVE Hype....
    的头像 科技绿洲 发表于 06-24 10:50 578次 阅读

    诚迈科技基于机器视觉技术打造一体化工业视觉软件解决方案

    智能制造要通过数据和算法,实现网络化智能工厂,使信息在整个供应链上互联互通、生产效率提升、风险降低。....
    的头像 科技绿洲 发表于 06-24 10:46 313次 阅读

    NVIDIA DOCA库API已向开发者公开提供

    本周,NVIDIA 成为 Linux 基金会开放可编程基础设施(OPI – Open Program....
    的头像 科技绿洲 发表于 06-24 10:38 145次 阅读

    边缘的超低功耗关键短语检测

      BNN 可以检测多达十个 1 秒的关键短语,非常适合通过语音进行 HMI。为了提高检测精度,仅在....
    的头像 星星科技指导员 发表于 06-24 10:09 233次 阅读
    边缘的超低功耗关键短语检测

    基于NRK3301语音识别芯片的智能照明方案

    随着科技的发展,对家居生活中的照明设备要求也越来越高,普通照明显然已无法再满足人们对智能家居的需求,....
    发表于 06-24 09:52 12次 阅读
    基于NRK3301语音识别芯片的智能照明方案

    人工智能和混合云技术提供支持的数字球迷观赛体验

    IBM (NYSE: IBM) 和全英草地网球俱乐部日前公布了本年度为全球温网球迷提供的数字体验全新....
    的头像 IBM中国 发表于 06-24 09:49 188次 阅读

    云从科技助力广西打造全国人工智能领域合作标杆与典范

    6月20日,云从科技与北投信创集团联合共建的“迈特高”AI智慧城市创新实验室暨云从科技东盟发展中心等....
    的头像 科技绿洲 发表于 06-23 16:46 314次 阅读

    NVIDIA RTX GPU产品能够支持4K大屏渲染和扩展内容渲染

    此前,七维科技帮助河南广播电视台完成了演播室改造项目,打造了 XR 沉浸式 4K 超高清演播室。这一....
    的头像 科技绿洲 发表于 06-23 15:11 191次 阅读

    NVIDIA正在建造一台AI超级计算机来驱动地球的数字孪生

    元宇宙是互联网向 3D 网络进化过程中的下一个重要阶段,将为娱乐、汽车、制造业、机器人等各个行业带来....
    的头像 科技绿洲 发表于 06-23 15:06 213次 阅读

    开源软件-PhoenixGo基于AlphaGo Zero论文实现的围棋AI程序

    ./oschina_soft/PhoenixGo.zip
    发表于 06-23 14:57 10次 阅读
    开源软件-PhoenixGo基于AlphaGo Zero论文实现的围棋AI程序

    MACE神经网络计算框架

    ./oschina_soft/mace.zip
    发表于 06-23 14:54 6次 阅读
    MACE神经网络计算框架

    NVIDIA 3D MoMa技术可为虚拟爵士乐队调校乐器

    爵士乐的精髓在于即兴演奏, NVIDIA 正在通过 AI 研究向这一流派致敬。也许有一天,图形创作者....
    的头像 科技绿洲 发表于 06-23 14:53 170次 阅读

    新华三连续四年位居IT统一运维软件市场榜首

    在数字化转型“深水区”,业务、技术体系和平台架构的日益复杂化和多元化,催生了云化、智能化的运维服务需....
    的头像 科技绿洲 发表于 06-23 14:43 286次 阅读

    商汤科技助力通用人工智能基础研究和生态构建

    近日,计算机视觉领域顶级国际会议CVPR 2022(Computer Vision and Patt....
    的头像 商汤科技SenseTime 发表于 06-23 14:03 182次 阅读

    NVIDIA RTX A6000助力实现高效渲染输出高质量画面

    电视演播室作为电视节目制作的重要场所,承担了除外拍节目外的大部分节目录制和制作任务,随着设备技术突飞....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 12:06 162次 阅读

    NVIDIA在自动驾驶领域取得的新突破

    此前,NVIDIA 中国区软件解决方案总监卓睿代表 NVIDIA 参加了视频采访,针对 NVIDIA....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 12:03 544次 阅读

    高通AI软件栈产品组合提供从边缘到云端的AI功能

    高通技术公司今日宣布推出高通AI软件栈产品组合,进一步提升公司在AI和智能网联边缘领域的领先优势。高....
    的头像 科技绿洲 发表于 06-23 11:38 368次 阅读

    安霸与嬴彻科技达成合作共同探索新的发展领域

    ABI Research 供应链管理和物流首席分析师 Susan Beardslee 表示:“截至 ....
    的头像 科技绿洲 发表于 06-23 11:23 567次 阅读

    NVIDIA如何以最好的方式来构建元宇宙

    元宇宙是互联网向 3D 网络进化过程中的下一个重要阶段,将为娱乐、汽车、制造业、机器人等各个行业带来....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 11:13 157次 阅读

    NVIDIA 3D MoMa:基于2D图像创建3D物体

    可逆渲染流程 NVIDIA 3D MoMa 将于本周在新奥尔良举行的计算机视觉和模式识别会议 CVP....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 11:00 163次 阅读

    数字经济加速落地能为中小企业带来什么?

    我采访过许多AI从业者,既有算法科学家或CTO,也有一些“AI村”里的工作者。一位中年大姐曾告诉我,....
    的头像 脑极体 发表于 06-22 19:42 580次 阅读

    健康消费带动智能健身镜走红,映衬居家“硬”需求

    在刚刚结束的618大促,健康消费成为了一个备受关注的热门话题。根据近日公布的《618消费趋势洞察报告....
    的头像 科技见闻网 发表于 06-22 16:31 165次 阅读
    健康消费带动智能健身镜走红,映衬居家“硬”需求

    如何在RK3399ProD上构建可以识别10个不同字词的基本语音识别网络

    前言:模型会尝试将时长为 1 秒的音频片段归类为无声、未知字词、“yes”、“no”、“up”、“down”、“left”、“right”、“o...
    发表于 06-22 16:27 1173次 阅读

    东软集团推出车道级导航OneCoreGo3.0

    近日,东软集团重磅发布其在汽车电子领域中的里程碑式产品——全球导航OneCoreGo3.0。
    的头像 科技绿洲 发表于 06-22 16:23 254次 阅读

    小马智行自研自动驾驶域控制器ADC已开始向用户交付样品

    小马智行将成为首批基于NVIDIA DRIVE Hyperion 计算架构及DRIVE Orin 系....
    的头像 Pony.ai小马智行 发表于 06-22 15:22 127次 阅读

    基于语音识别芯片的声控空调插座方案

    你见过插座还能听得懂人类说话么?随着科技的进步,为了实现智能家居的AI智能化生活,市面上也推出了声控....
    发表于 06-22 14:53 9次 阅读
    基于语音识别芯片的声控空调插座方案

    NVIDIA为天壤提供计算能力强劲AI平台和行业解决方案

    天壤成立于 2016 年,是一家专注于通用智能研究的创新企业。致力于打造复杂系统下的通用人工智能平台....
    的头像 科技绿洲 发表于 06-22 11:25 351次 阅读

    NVIDIA 的CUDA平台能够助力实现卓越游戏体验

    越来越多的人在使用 NVIDIA 产品。机器人专家、视觉艺术专家、数据科学家等各类创新者和创作者都信....
    的头像 科技绿洲 发表于 06-22 10:55 167次 阅读

    NVIDIA技术助力各个领域加快创新速度

    更多问题,更多可能:NVIDIA 技术助力人类为之努力的各个领域加快创新速度。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:39 169次 阅读

    得心应手的AI:NVIDIA Research助力内容创作者使用3D物体进行即兴创作

    可逆渲染流程 NVIDIA 3D MoMa 将于本周在新奥尔良举行的计算机视觉和模式识别会议 CVP....
    的头像 Blue5 发表于 06-22 10:27 869次 阅读
    得心应手的AI:NVIDIA Research助力内容创作者使用3D物体进行即兴创作

    NVIDIA助力集度ROBO-01概念车发布

    电动汽车制造商集度展示了未来汽车的交互式 AI 驾驶体验。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:15 87次 阅读

    NVIDIA助力天壤推出全新蛋白质设计平台

    天壤成立于 2016 年,是一家专注于通用智能研究的创新企业。致力于打造复杂系统下的通用人工智能平台....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:12 110次 阅读

    智能肩颈按摩仪离线语音识别芯片方案

    目前市场上大部分肩颈按摩仪的使用和运行,都需要使用者通过各种受控键盘、遥控器或按键等方式进行操作。而传统的语音识别加单片...
    发表于 06-16 11:45 5326次 阅读

    【开发教程17】AI语音人脸识别(会议记录仪-人脸打卡机)-AI人脸注册认证与识别

    CC3200AI实验教程——疯壳·开发板系列AI人脸注册认证与识别     使用IAR打开AI_OCR文件夹里面的工...
    发表于 06-15 19:17 1404次 阅读
    【开发教程17】AI语音人脸识别(会议记录仪-人脸打卡机)-AI人脸注册认证与识别

    【开发教程16】AI语音人脸识别(会议记录仪-人脸打卡机)-AI人脸图像采集

    CC3200AI实验教程 ——疯壳·开发板系列 AI人脸图像采集     人脸图像采集硬件部分主要由CC32...
    发表于 06-13 18:21 2179次 阅读
    【开发教程16】AI语音人脸识别(会议记录仪-人脸打卡机)-AI人脸图像采集

    【开发教程15】AI语音人脸识别(会议记录仪-人脸打卡机)-加解密及数据协议

    CC3200AI实验教程——疯壳·开发板系列加解密及数据协议     在《AI人脸系统架构》一节中,我们提到AI...
    发表于 06-13 10:31 2008次 阅读
    【开发教程15】AI语音人脸识别(会议记录仪-人脸打卡机)-加解密及数据协议

    【开发教程14】AI语音人脸识别(会议记录仪-人脸打卡机)-AI人脸系统架构

    CC3200AI实验教程——疯壳·开发板系列AI人脸系统架构   AI人脸识别系统由7大块组成,分别是摄像头、CC...
    发表于 06-10 14:32 1580次 阅读
    【开发教程14】AI语音人脸识别(会议记录仪-人脸打卡机)-AI人脸系统架构

    【开发教程13】AI语音人脸识别(会议记录仪-人脸打卡机)-语音传输与解析显示

    CC3200AI实验教程——疯壳·开发板系列语音传输与解析显示     TLV320AIC3254支持I2C和SPI接口...
    发表于 06-02 18:24 5725次 阅读
    【开发教程13】AI语音人脸识别(会议记录仪-人脸打卡机)-语音传输与解析显示

    【开发教程12】AI语音人脸识别(会议记录仪-人脸打卡机)-语音采集

    CC3200AI实验教程——疯壳·开发板系列语音采集     音频采集板卡主要运用的是TI官方的方案TLV320AI...
    发表于 05-21 14:52 6344次 阅读
    【开发教程12】AI语音人脸识别(会议记录仪-人脸打卡机)-语音采集

    【开发教程11】AI语音人脸识别(会议记录仪-人脸打卡机)-AI语音系统架构

    CC3200AI实验教程——疯壳·开发板系列AI语音系统架构 AI语音识别系统的系统架构如图1.0.1所示。 图1.0.1 A...
    发表于 05-20 15:35 7044次 阅读
    【开发教程11】AI语音人脸识别(会议记录仪-人脸打卡机)-AI语音系统架构

    【开发教程10】AI语音人脸识别(会议记录仪-人脸打卡机)-WIFI-TCP网络通信

    CC3200AI实验教程——疯壳·开发板系列WIFI-TCP网络通信     TCP(Transmission Control Proto...
    发表于 05-19 17:15 4766次 阅读
    【开发教程10】AI语音人脸识别(会议记录仪-人脸打卡机)-WIFI-TCP网络通信