0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CEVA辅助算法让语音活动检测、麦克风获得最大价值

CEVA 来源:CEVA 作者:CEVA 2021-12-09 17:29 次阅读

基于语音的控制系统正在经历稳健的增长,2020 年达到 107 亿美元,预计到 2026 年将达到超过 270 亿美元。其优点不言而喻:无手操作,界面大大简化。您可以直接说出所需的内容,而无需使用导航菜单。但是,正如我们所有人所经历的那样,声音可能有其自身的弊端。当您靠近麦克风正对着它讲话时,它在安静的房间里工作正常。但在您的手机上、通过无线耳塞以及在繁忙的超市中,这些情形的语音识别如何呢?识别效果并不总是那么好。基于人工智能的命令识别至关重要,但更重要的是,这种识别首先要有可以正常工作的清晰语音信号。如果没有清晰的音频输入,您的识别程序通常会错误识别语音命令。用户会感到沮丧,并很快就停止使用该功能。

是什么让语音识别变得困难重重

在一个相似的问题(视觉识别)中,常规图像中没有太多的模糊之处,至少在光照合理的情况下是如此。但是,声音检测必须应付更多的干扰。稳定的背景噪音包括风扇、空调、道路噪音。还有其他不太可预测的背景噪音–音乐、谈话、狗吠、汽车喇叭、警笛。从这些杂乱纷呈的背景噪音中拾取语音并不简单。但通过采用正确的技术,这是非常有可能做到的。

这种噪声过滤技术的优势不仅仅体现在语音控制方面,它还提高了手机通话或会议通话的清晰度。通话另一端的听众将在背景噪音中更清楚地听到您和其他讲话人。

使这一目标成为可能的是音频前端 (AFE),这是在语音识别或通信之前的一组信号处理阶段。此音频前端可清理原始音频信号,加强最突出的讲话人(相对于其他输入源),并减少该信号周围的杂音。

语音活动和到达方向检测

许多基于语音识别的设备都是电池供电的(手机、手表和遥控器),必须最大限度降低功耗。语音活动检测 (VAD) 是一个功耗极低的阶段,专门用于检测讲话人。在触发此检测之前,所有其它设备都可以保持断电状态。如何将人类语音与狗吠或其他非人类噪音区别开来?这需要通过一些巧妙但明确的滤波技术。

到达方向 (DOA) 检测要求设备(手机、遥控器等)配有多个麦克风,通常为若干个麦克风。然后,通过比较在每个麦克风处声音脉冲到达时间的微小差异,可以推断到达方向(在应用人类语音滤波后)。正如我将在下面所阐释的,DOA 检测对于使音频前端能够放大讲话人(声音)至关重要。

降噪

降噪有多种方法,有些是空间敏感的,有些是基于单通道滤波。空间方法提供了一种通过波束成型技术放大讲话人声音的方法。这与无线技术在优先选择特定的蜂窝塔时所使用的技巧相同,但在此处,这种技巧应用于声波,而不是无线电波。在此处,信号处理使用来自多个麦克风的输入信号优先优化来自特定方向的接收信号。这当然由 DOA 检测进行导向。

单通道滤波看起来更像频域中的传统滤波。最一般的情况下,这可能是一个带通滤波器,但也可能是更复杂的选件。此方法的问题是,它通常会影响触发词检测和自动语音识别。正是出于此原因,一些云平台要求在使用语音识别服务之前禁用此类滤波器。单通道滤波器在语音通信(而不是语音识别)中仍有价值,可减少线路另一端的听者噪音。

回声消除示例 - 在 AEC 激活前后 2 个信号的声谱图。

回声消除

在任何封闭空间(房间、驾驶室)中,声音会朝多个方向传播,并且会从墙壁、窗户和家具发出回声,比直接信号略迟一点到达麦克风。或者,听众可能会听到从讲话人到麦克风的难听回声。消除这些讨厌的回声(起码会增强噪音)是回声消除 (AEC) 技术的任务。回声消除技术将参考信号(麦克风从直接路径接收到的第一个最强信号)与随后接收到的回波进行比较。它们波形相似,但是已衰减,因此容易识别并从信号中除去。

高精度语音识别只能通过高质量音频前端实现。这需要一些相当复杂的音频前端处理,比如人声活动检测、DOA 检测、波束成型、回声消除和滤波(如果适用)。这些技术全部基于复杂的信号处理算法。有多种技术组合可以为您提供,您可根据在高端技术和大众市场之间的不同定位进行选择。

要实现可靠的基于语音的控制,乃至于在嘈杂环境中实现高音质的沟通,必须满足这一基本的要求。颇具矛盾的是,如果您可以将大量技术应用于清晰语音拾取问题,该问题便可迎刃而解。只要采用高端语音活动检测技术、多麦克风波束成型技术和回声消除技术,您便可以拥有一款面向高端市场的高档产品。一个更为有趣的挑战是能够以更具吸引力的价格为您的中端市场提供几乎同样出色的拾音质量。我将在此处探讨同时面向这两类市场的技术。

语音活动检测 (VAD)

此步骤是语音拾取路径的起点 – 是否有人在声音背景中讲话?第一步只是查看一下信号,将具有清晰活动的帧与背景分离开来。

图 1:针对示例信号的 VAD 功能

仅查看原始检测信号,会发现一些检测将是真实的,一些检测将是错误的。为 SnR 设置一个合适的阈值有助于找到一个好的平衡点。在一款物有所值的产品中,纯粹基于能量的检测(窗口集成)可能就足够了。高档产品可能会增加使用神经网络的自适应检测。这两种特性在可穿戴设备和耳塞中都很常见。这些技术的常见分析是在接收器工作特性 (RoC) 曲线上绘制真阳性和假阳性的对比。假阳性和真阳性检测之间的这种权衡有助于您决定如何调整产品。

1a713b06-5595-11ec-b2e9-dac502259ad0.png

图 2:若干 VAD 解决方案的 RoC 图表

到达方向检测 (DOA)

此算法会比较不同麦克风上检测到的信号在到达时间上的轻微延迟。自然地,每个麦克风对人类语音特性的拾取应具有选择性。然后,检测的准确性取决于所用麦克风的数量和这些麦克风的分布情况。

智能扬声器或智能电视等高端设备通常会假定讲话人距离较远,因此 DOA 将会相当准确。中端市场产品通常会离讲话人更近,并且几乎肯定会使用更少的麦克风,因此必须相应调整。这一因素对于波束成型技术尤其应予以考虑,而且对下一节中的降噪至关重要。

降噪

可以说,最好的降噪方式是空间降噪 - 使用波束成型技术放大讲话人声音。这再次需要多个麦克风,并使用 DOA 作为起点来选择应放大的位置。您可以使用的麦克风越多,放大讲话人声音的准确度就越高,从而有效抑制所有其他噪音源。但即使使用两个麦克风,您也可以在一个麦克风上提高甄别水平。

1aa46bca-5595-11ec-b2e9-dac502259ad0.png

1adfe330-5595-11ec-b2e9-dac502259ad0.png

图 3:使用 3 个麦克风和 7 个麦克风的波束形成器滤波模式

对于单个麦克风,不能进行波束成型。如果讲话人自然靠近麦克风,这可能不成问题。例如,耳塞通过骨传导进行语音拾取时,可能已充分达到无噪音的程度。还请记住,对于语音识别,云提供商建议不要使用滤波器来消除噪音,因为这些滤波器可能同时会降低识别精度。

回声消除

回声(主要来自房间周围的固定表面)会产生与讲话人信号有关的背景噪音波尾。在低端设备上,设备的扬声器和塑料盒往往会增加噪音甚至产生非线性影响。这意味着 AEC 算法不仅必须可根据环境回波调整,还必须针对来自设备外壳的任何可能噪音进行调整。

1b0ee180-5595-11ec-b2e9-dac502259ad0.png

图 4:AEC 使用的标准拾音路径

1b2fb3ce-5595-11ec-b2e9-dac502259ad0.png

图 5:3 个不同房间的回波波尾随时间而变化的振幅比

跨界的 CEVA ClearVox

正如您看到的,当涉及到准确的语音拾取时,一种规格并非处处适用。必须设计不同的解决方案以满足不同的市场需求,即分别制定高端市场和大众市场目标。CEVA 可以帮助您同时满足这两个目标,让您从具有 NN 辅助算法和用于音频缩放的许多麦克风的高端技术中获得最大价值,或者从具有基于能量的语音活动检测和仅有两个甚至一个麦克风的实惠技术中获得最大价值。CEVA 在这一领域拥有多年的丰富经验。在用于耳塞、耳机和空间音频的应用中,所有这些经验都整合在我们的 CEVA ClearVox 产品中,该产品支持 CEVA DSPARM 平台。

原文标题:如何通过调节以获得高精度与高质量的语音识别

文章出处:【微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 麦克风
    +关注

    关注

    14

    文章

    595

    浏览量

    54189
  • CEVA
    +关注

    关注

    1

    文章

    175

    浏览量

    75539
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111828

原文标题:如何通过调节以获得高精度与高质量的语音识别

文章出处:【微信号:CEVA-IP,微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    是否可以把STM32F407VG板子上的麦克风屏蔽了,外接自己的两个PDM麦克风

    请问是否可以把STM32F4DISCOVERY板子上的麦克风屏蔽了,外接自己的两个PDM麦克风
    发表于 04-03 07:30

    麦克风阵列双通道降噪拾音模组A-59

    麦克风模组
    深圳德宇科技有限公司
    发布于 :2024年03月29日 10:23:11

    STM32接入PC后能枚举出来麦克风设备,但是开始录音后无数据,为什么?

    使用STM32F4做USB 麦克风硬件: STM32F411 + MEMS数字麦克风(输出PDM数据)+ USB接口工作流程:STM32作为USB Aduio Deice 与PC连接,并通过I2S
    发表于 03-18 08:25

    麦克风经常啸叫,学会这几招轻松避免

    当唱歌时遇上啸叫是很痛苦的经历,本来好好地沉醉在音乐的海洋里,突然麦克风一阵乱叫,即使有再大的兴致也烟消云散,如果有其他人在场出现这种情况,演唱者还会特别尴尬,在会议时出现啸叫的现象也会场面一度
    发表于 10-11 10:54

    使用晶体管的驻极体麦克风放大器电路

      该驻极体麦克风放大器电路采用普通电子元件设计。该麦克风放大器电路使用驻极体麦克风极头,但可以是动圈麦克风,其电阻较低。本电路要求电源电压在5到10伏之间,建议使用9伏直流电源电压。
    发表于 09-08 15:47

    麦克风阵列声源定位追踪模组AR-1105

    麦克风模组
    深圳德宇科技有限公司
    发布于 :2023年09月01日 17:12:38

    使用LM387制作的动圈麦克风前置放大器电路

      动圈麦克风前置放大器电路可以使用LM387双运算放大器集成电路制成。输入阻抗对应于47k,它几乎完全取决于R1。如果您希望连接具有不同值的动圈麦克风,可以更改电阻R1。动圈麦克风前置放大器放大
    发表于 08-31 18:18

    简单的高增益麦克风前置放大器电路

      可以使用此电路图设计一个非常简单的高增益麦克风前置放大器电子项目。   该麦克风前置放大器电子项目基于晶体管,能够在音频频率下获得约70dB或更多的增益。该电路的增益大约等于两个晶体管的hfe
    发表于 08-31 17:39

    使用NuMicro M487上的SPI或I2S来捕捉PDM麦克风数据

    应用程序 : 这个 USB 音频类示例代码记录来自 SPI 或 I2S 上的 PDM 麦克风的声音, 当微控制器(MCU) 没有专用接口时, 它会连接到 SPI 或 I2S 上 。 示例代码包括将
    发表于 08-29 07:36

    请问NUC505支持数字麦克风吗?

    NUC505支持数字麦克风吗?
    发表于 08-28 07:09

    启英泰伦通话降噪方案,采用深度学习降噪算法通话更清晰

    麦克风拾音给到CI13XX语音识别芯片进行降噪处理,语音识别芯片把音频传给发射电路,发射出去。对讲机收到音频后,发送给CI13XX进行降噪处理后,通过喇叭播放出来。 方案推荐: 启英泰伦带插口单麦离线
    发表于 08-22 17:36

    OP37低噪声麦克风前置放大器电路设计

      本麦克风前置放大器原理图电子电路项目采用ADI公司生产的OP37运算放大器设计,是一款有效的固定增益无变压器麦克风前置放大器,可将来自低阻抗麦克风的差分信号放大50dB,输入阻抗为2k。由于电路
    发表于 08-04 17:49

    请问NUC505是否支持数字麦克风?

    是,NUC505内部音讯编译码器( Audio CODEC )有支持数字麦克风功能,但只能同时支持一组麦克风,左右声道数据相同。通过PA2 (Digital MIC clock in)及PA3
    发表于 06-20 08:15

    如何使用esp8266通过麦克风语音笔记实时发送到php?

    我可以使用 esp8266 通过麦克风语音笔记实时发送到 php,在那里音频将得到处理。 我不知道这是否可能所以我问你任何建议或回复将不胜感激。
    发表于 05-16 06:57

    语音降噪回音消除模块性能实测系列二 A47单双麦克风降噪性能测试

    麦克风
    深圳德宇科技有限公司
    发布于 :2023年05月10日 15:14:04