利用NVIDIA Triton推理服务器加速语音识别的速度-电子发烧友网

网易互娱 AI Lab 的研发人员，基于 Wenet 语音识别工具进行优化和创新，利用 NVIDIA Triton 推理服务器的 GPU Batch Inference 机制加速了语音识别的速度，并且降低了成本。

2001 年正式成立的网易游戏·互动娱乐事业群在经历了近 20 年的发展历程后，以“创新无边界，匠心造精品”为文化基石，创造了一系列大家耳熟能详的代表作品，如梦幻西游系列、大话西游系列、《阴阳师》、《第五人格》、《荒野行动》、《率土之滨》、《哈利波特：魔法觉醒》等。在 data.ai 公布的 2021 全球发行商 52 强榜单中，网易排名第二。

语音识别 AI 算法服务目前已经成为各个领域不可或缺的基础算法服务。网易互娱 AI Lab 为所有互娱游戏的玩家，CC 直播平台用户等提供完善的语音识别服务。语音识别服务每天都有大量的调用量，AI 推理的计算量繁重。

在网易游戏中，语音识别是一个调用量庞大的基础算法服务，如果在语音识别算法服务这里出现时耗或吞吐瓶颈的话，会因为语音内容识别过慢，使得用户使用体验大幅下降。

服务是基于开源框架 Wenet 优化开发，但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的，并且热词和语言模型部分均采用了 Openfst，速度较慢，也不太方便使用。经过测试 CPU Float32 模式下解码，onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署时还需要有拼接 Batch 的机制，batch inference 虽然在使用 CPU 做推理时没有太大的提升，但是能大大提升 GPU 的利用率。

基于以上的挑战，网易互娱 AI Lab 选择了采用 NVIDIA 在 Wenet 中开源的 Triton 部署方案来改进优化后进行 GPU 部署，使得语音识别速度提高，大幅降低时延和运营成本。

由于 Wenet 开源框架下的 Triton 推理服务器并没有考虑音频解码，显存溢出等问题，所以需要有个前端逻辑做音频解码处理和音频分段处理。并且因为 Triton 推理服务器组 batch 的机制是相同音频长度才会自动组成 batch 做推理，所以前端处理逻辑这块还加上了按秒 padding 的操作。整体流程如图所示。