CEVA辅助算法让语音活动检测、麦克风获得最大价值-电子发烧友网

基于语音的控制系统正在经历稳健的增长，2020 年达到 107 亿美元，预计到 2026 年将达到超过 270 亿美元。其优点不言而喻：无手操作，界面大大简化。您可以直接说出所需的内容，而无需使用导航菜单。但是，正如我们所有人所经历的那样，声音可能有其自身的弊端。当您靠近麦克风正对着它讲话时，它在安静的房间里工作正常。但在您的手机上、通过无线耳塞以及在繁忙的超市中，这些情形的语音识别如何呢？识别效果并不总是那么好。基于人工智能的命令识别至关重要，但更重要的是，这种识别首先要有可以正常工作的清晰语音信号。如果没有清晰的音频输入，您的识别程序通常会错误识别语音命令。用户会感到沮丧，并很快就停止使用该功能。

是什么让语音识别变得困难重重

在一个相似的问题（视觉识别）中，常规图像中没有太多的模糊之处，至少在光照合理的情况下是如此。但是，声音检测必须应付更多的干扰。稳定的背景噪音包括风扇、空调、道路噪音。还有其他不太可预测的背景噪音–音乐、谈话、狗吠、汽车喇叭、警笛。从这些杂乱纷呈的背景噪音中拾取语音并不简单。但通过采用正确的技术，这是非常有可能做到的。

这种噪声过滤技术的优势不仅仅体现在语音控制方面，它还提高了手机通话或会议通话的清晰度。通话另一端的听众将在背景噪音中更清楚地听到您和其他讲话人。

使这一目标成为可能的是音频前端（AFE），这是在语音识别或通信之前的一组信号处理阶段。此音频前端可清理原始音频信号，加强最突出的讲话人（相对于其他输入源），并减少该信号周围的杂音。

语音活动和到达方向检测

许多基于语音识别的设备都是电池供电的（手机、手表和遥控器），必须最大限度降低功耗。语音活动检测（VAD）是一个功耗极低的阶段，专门用于检测讲话人。在触发此检测之前，所有其它设备都可以保持断电状态。如何将人类语音与狗吠或其他非人类噪音区别开来？这需要通过一些巧妙但明确的滤波技术。

到达方向（DOA）检测要求设备（手机、遥控器等）配有多个麦克风，通常为若干个麦克风。然后，通过比较在每个麦克风处声音脉冲到达时间的微小差异，可以推断到达方向（在应用人类语音滤波后）。正如我将在下面所阐释的，DOA 检测对于使音频前端能够放大讲话人（声音）至关重要。

降噪

降噪有多种方法，有些是空间敏感的，有些是基于单通道滤波。空间方法提供了一种通过波束成型技术放大讲话人声音的方法。这与无线技术在优先选择特定的蜂窝塔时所使用的技巧相同，但在此处，这种技巧应用于声波，而不是无线电波。在此处，信号处理使用来自多个麦克风的输入信号优先优化来自特定方向的接收信号。这当然由 DOA 检测进行导向。

单通道滤波看起来更像频域中的传统滤波。最一般的情况下，这可能是一个带通滤波器，但也可能是更复杂的选件。此方法的问题是，它通常会影响触发词检测和自动语音识别。正是出于此原因，一些云平台要求在使用语音识别服务之前禁用此类滤波器。单通道滤波器在语音通信（而不是语音识别）中仍有价值，可减少线路另一端的听者噪音。

回声消除示例 - 在 AEC 激活前后 2 个信号的声谱图。

回声消除

在任何封闭空间（房间、驾驶室）中，声音会朝多个方向传播，并且会从墙壁、窗户和家具发出回声，比直接信号略迟一点到达麦克风。或者，听众可能会听到从讲话人到麦克风的难听回声。消除这些讨厌的回声（起码会增强噪音）是回声消除（AEC）技术的任务。回声消除技术将参考信号（麦克风从直接路径接收到的第一个最强信号）与随后接收到的回波进行比较。它们波形相似，但是已衰减，因此容易识别并从信号中除去。

高精度语音识别只能通过高质量音频前端实现。这需要一些相当复杂的音频前端处理，比如人声活动检测、DOA 检测、波束成型、回声消除和滤波（如果适用）。这些技术全部基于复杂的信号处理算法。有多种技术组合可以为您提供，您可根据在高端技术和大众市场之间的不同定位进行选择。

要实现可靠的基于语音的控制，乃至于在嘈杂环境中实现高音质的沟通，必须满足这一基本的要求。颇具矛盾的是，如果您可以将大量技术应用于清晰语音拾取问题，该问题便可迎刃而解。只要采用高端语音活动检测技术、多麦克风波束成型技术和回声消除技术，您便可以拥有一款面向高端市场的高档产品。一个更为有趣的挑战是能够以更具吸引力的价格为您的中端市场提供几乎同样出色的拾音质量。我将在此处探讨同时面向这两类市场的技术。

语音活动检测（VAD）

此步骤是语音拾取路径的起点 – 是否有人在声音背景中讲话？第一步只是查看一下信号，将具有清晰活动的帧与背景分离开来。

图 1：针对示例信号的 VAD 功能

仅查看原始检测信号，会发现一些检测将是真实的，一些检测将是错误的。为 SnR 设置一个合适的阈值有助于找到一个好的平衡点。在一款物有所值的产品中，纯粹基于能量的检测（窗口集成）可能就足够了。高档产品可能会增加使用神经网络的自适应检测。这两种特性在可穿戴设备和耳塞中都很常见。这些技术的常见分析是在接收器工作特性（RoC）曲线上绘制真阳性和假阳性的对比。假阳性和真阳性检测之间的这种权衡有助于您决定如何调整产品。

图 2：若干 VAD 解决方案的 RoC 图表

到达方向检测（DOA）

此算法会比较不同麦克风上检测到的信号在到达时间上的轻微延迟。自然地，每个麦克风对人类语音特性的拾取应具有选择性。然后，检测的准确性取决于所用麦克风的数量和这些麦克风的分布情况。

智能扬声器或智能电视等高端设备通常会假定讲话人距离较远，因此 DOA 将会相当准确。中端市场产品通常会离讲话人更近，并且几乎肯定会使用更少的麦克风，因此必须相应调整。这一因素对于波束成型技术尤其应予以考虑，而且对下一节中的降噪至关重要。

降噪

可以说，最好的降噪方式是空间降噪 - 使用波束成型技术放大讲话人声音。这再次需要多个麦克风，并使用 DOA 作为起点来选择应放大的位置。您可以使用的麦克风越多，放大讲话人声音的准确度就越高，从而有效抑制所有其他噪音源。但即使使用两个麦克风，您也可以在一个麦克风上提高甄别水平。

图 3：使用 3 个麦克风和 7 个麦克风的波束形成器滤波模式

对于单个麦克风，不能进行波束成型。如果讲话人自然靠近麦克风，这可能不成问题。例如，耳塞通过骨传导进行语音拾取时，可能已充分达到无噪音的程度。还请记住，对于语音识别，云提供商建议不要使用滤波器来消除噪音，因为这些滤波器可能同时会降低识别精度。

回声消除

回声（主要来自房间周围的固定表面）会产生与讲话人信号有关的背景噪音波尾。在低端设备上，设备的扬声器和塑料盒往往会增加噪音甚至产生非线性影响。这意味着 AEC 算法不仅必须可根据环境回波调整，还必须针对来自设备外壳的任何可能噪音进行调整。

图 4：AEC 使用的标准拾音路径

图 5：3 个不同房间的回波波尾随时间而变化的振幅比

跨界的 CEVA ClearVox

正如您看到的，当涉及到准确的语音拾取时，一种规格并非处处适用。必须设计不同的解决方案以满足不同的市场需求，即分别制定高端市场和大众市场目标。CEVA 可以帮助您同时满足这两个目标，让您从具有 NN 辅助算法和用于音频缩放的许多麦克风的高端技术中获得最大价值，或者从具有基于能量的语音活动检测和仅有两个甚至一个麦克风的实惠技术中获得最大价值。CEVA 在这一领域拥有多年的丰富经验。在用于耳塞、耳机和空间音频的应用中，所有这些经验都整合在我们的 CEVA ClearVox 产品中，该产品支持 CEVA DSP 和 ARM 平台。

原文标题：如何通过调节以获得高精度与高质量的语音识别

文章出处：【微信公众号：CEVA】欢迎添加关注！文章转载请注明出处。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉