0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CEVA辅助算法让语音活动检测、麦克风获得最大价值

CEVA 来源:CEVA 作者:CEVA 2021-12-09 17:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

基于语音的控制系统正在经历稳健的增长,2020 年达到 107 亿美元,预计到 2026 年将达到超过 270 亿美元。其优点不言而喻:无手操作,界面大大简化。您可以直接说出所需的内容,而无需使用导航菜单。但是,正如我们所有人所经历的那样,声音可能有其自身的弊端。当您靠近麦克风正对着它讲话时,它在安静的房间里工作正常。但在您的手机上、通过无线耳塞以及在繁忙的超市中,这些情形的语音识别如何呢?识别效果并不总是那么好。基于人工智能的命令识别至关重要,但更重要的是,这种识别首先要有可以正常工作的清晰语音信号。如果没有清晰的音频输入,您的识别程序通常会错误识别语音命令。用户会感到沮丧,并很快就停止使用该功能。

是什么让语音识别变得困难重重

在一个相似的问题(视觉识别)中,常规图像中没有太多的模糊之处,至少在光照合理的情况下是如此。但是,声音检测必须应付更多的干扰。稳定的背景噪音包括风扇、空调、道路噪音。还有其他不太可预测的背景噪音–音乐、谈话、狗吠、汽车喇叭、警笛。从这些杂乱纷呈的背景噪音中拾取语音并不简单。但通过采用正确的技术,这是非常有可能做到的。

这种噪声过滤技术的优势不仅仅体现在语音控制方面,它还提高了手机通话或会议通话的清晰度。通话另一端的听众将在背景噪音中更清楚地听到您和其他讲话人。

使这一目标成为可能的是音频前端 (AFE),这是在语音识别或通信之前的一组信号处理阶段。此音频前端可清理原始音频信号,加强最突出的讲话人(相对于其他输入源),并减少该信号周围的杂音。

语音活动和到达方向检测

许多基于语音识别的设备都是电池供电的(手机、手表和遥控器),必须最大限度降低功耗。语音活动检测 (VAD) 是一个功耗极低的阶段,专门用于检测讲话人。在触发此检测之前,所有其它设备都可以保持断电状态。如何将人类语音与狗吠或其他非人类噪音区别开来?这需要通过一些巧妙但明确的滤波技术。

到达方向 (DOA) 检测要求设备(手机、遥控器等)配有多个麦克风,通常为若干个麦克风。然后,通过比较在每个麦克风处声音脉冲到达时间的微小差异,可以推断到达方向(在应用人类语音滤波后)。正如我将在下面所阐释的,DOA 检测对于使音频前端能够放大讲话人(声音)至关重要。

降噪

降噪有多种方法,有些是空间敏感的,有些是基于单通道滤波。空间方法提供了一种通过波束成型技术放大讲话人声音的方法。这与无线技术在优先选择特定的蜂窝塔时所使用的技巧相同,但在此处,这种技巧应用于声波,而不是无线电波。在此处,信号处理使用来自多个麦克风的输入信号优先优化来自特定方向的接收信号。这当然由 DOA 检测进行导向。

单通道滤波看起来更像频域中的传统滤波。最一般的情况下,这可能是一个带通滤波器,但也可能是更复杂的选件。此方法的问题是,它通常会影响触发词检测和自动语音识别。正是出于此原因,一些云平台要求在使用语音识别服务之前禁用此类滤波器。单通道滤波器在语音通信(而不是语音识别)中仍有价值,可减少线路另一端的听者噪音。

回声消除示例 - 在 AEC 激活前后 2 个信号的声谱图。

回声消除

在任何封闭空间(房间、驾驶室)中,声音会朝多个方向传播,并且会从墙壁、窗户和家具发出回声,比直接信号略迟一点到达麦克风。或者,听众可能会听到从讲话人到麦克风的难听回声。消除这些讨厌的回声(起码会增强噪音)是回声消除 (AEC) 技术的任务。回声消除技术将参考信号(麦克风从直接路径接收到的第一个最强信号)与随后接收到的回波进行比较。它们波形相似,但是已衰减,因此容易识别并从信号中除去。

高精度语音识别只能通过高质量音频前端实现。这需要一些相当复杂的音频前端处理,比如人声活动检测、DOA 检测、波束成型、回声消除和滤波(如果适用)。这些技术全部基于复杂的信号处理算法。有多种技术组合可以为您提供,您可根据在高端技术和大众市场之间的不同定位进行选择。

要实现可靠的基于语音的控制,乃至于在嘈杂环境中实现高音质的沟通,必须满足这一基本的要求。颇具矛盾的是,如果您可以将大量技术应用于清晰语音拾取问题,该问题便可迎刃而解。只要采用高端语音活动检测技术、多麦克风波束成型技术和回声消除技术,您便可以拥有一款面向高端市场的高档产品。一个更为有趣的挑战是能够以更具吸引力的价格为您的中端市场提供几乎同样出色的拾音质量。我将在此处探讨同时面向这两类市场的技术。

语音活动检测 (VAD)

此步骤是语音拾取路径的起点 – 是否有人在声音背景中讲话?第一步只是查看一下信号,将具有清晰活动的帧与背景分离开来。

图 1:针对示例信号的 VAD 功能

仅查看原始检测信号,会发现一些检测将是真实的,一些检测将是错误的。为 SnR 设置一个合适的阈值有助于找到一个好的平衡点。在一款物有所值的产品中,纯粹基于能量的检测(窗口集成)可能就足够了。高档产品可能会增加使用神经网络的自适应检测。这两种特性在可穿戴设备和耳塞中都很常见。这些技术的常见分析是在接收器工作特性 (RoC) 曲线上绘制真阳性和假阳性的对比。假阳性和真阳性检测之间的这种权衡有助于您决定如何调整产品。

1a713b06-5595-11ec-b2e9-dac502259ad0.png

图 2:若干 VAD 解决方案的 RoC 图表

到达方向检测 (DOA)

此算法会比较不同麦克风上检测到的信号在到达时间上的轻微延迟。自然地,每个麦克风对人类语音特性的拾取应具有选择性。然后,检测的准确性取决于所用麦克风的数量和这些麦克风的分布情况。

智能扬声器或智能电视等高端设备通常会假定讲话人距离较远,因此 DOA 将会相当准确。中端市场产品通常会离讲话人更近,并且几乎肯定会使用更少的麦克风,因此必须相应调整。这一因素对于波束成型技术尤其应予以考虑,而且对下一节中的降噪至关重要。

降噪

可以说,最好的降噪方式是空间降噪 - 使用波束成型技术放大讲话人声音。这再次需要多个麦克风,并使用 DOA 作为起点来选择应放大的位置。您可以使用的麦克风越多,放大讲话人声音的准确度就越高,从而有效抑制所有其他噪音源。但即使使用两个麦克风,您也可以在一个麦克风上提高甄别水平。

1aa46bca-5595-11ec-b2e9-dac502259ad0.png

1adfe330-5595-11ec-b2e9-dac502259ad0.png

图 3:使用 3 个麦克风和 7 个麦克风的波束形成器滤波模式

对于单个麦克风,不能进行波束成型。如果讲话人自然靠近麦克风,这可能不成问题。例如,耳塞通过骨传导进行语音拾取时,可能已充分达到无噪音的程度。还请记住,对于语音识别,云提供商建议不要使用滤波器来消除噪音,因为这些滤波器可能同时会降低识别精度。

回声消除

回声(主要来自房间周围的固定表面)会产生与讲话人信号有关的背景噪音波尾。在低端设备上,设备的扬声器和塑料盒往往会增加噪音甚至产生非线性影响。这意味着 AEC 算法不仅必须可根据环境回波调整,还必须针对来自设备外壳的任何可能噪音进行调整。

1b0ee180-5595-11ec-b2e9-dac502259ad0.png

图 4:AEC 使用的标准拾音路径

1b2fb3ce-5595-11ec-b2e9-dac502259ad0.png

图 5:3 个不同房间的回波波尾随时间而变化的振幅比

跨界的 CEVA ClearVox

正如您看到的,当涉及到准确的语音拾取时,一种规格并非处处适用。必须设计不同的解决方案以满足不同的市场需求,即分别制定高端市场和大众市场目标。CEVA 可以帮助您同时满足这两个目标,让您从具有 NN 辅助算法和用于音频缩放的许多麦克风的高端技术中获得最大价值,或者从具有基于能量的语音活动检测和仅有两个甚至一个麦克风的实惠技术中获得最大价值。CEVA 在这一领域拥有多年的丰富经验。在用于耳塞、耳机和空间音频的应用中,所有这些经验都整合在我们的 CEVA ClearVox 产品中,该产品支持 CEVA DSPARM 平台。

原文标题:如何通过调节以获得高精度与高质量的语音识别

文章出处:【微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 麦克风
    +关注

    关注

    16

    文章

    698

    浏览量

    57906
  • CEVA
    +关注

    关注

    1

    文章

    198

    浏览量

    77290
  • 语音识别
    +关注

    关注

    39

    文章

    1825

    浏览量

    116236

原文标题:如何通过调节以获得高精度与高质量的语音识别

文章出处:【微信号:CEVA-IP,微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无线麦克风SRRC认证

    麦克风属于常见音频电子产品,广泛应用于直播、会议、录音等场景。出口不同国家时,认证要求差异较大。很多企业在实际操作中容易混淆,导致反复补做认证。本文从主流市场出发,系统梳理麦克风出口常见认证要求。
    的头像 发表于 03-31 16:06 173次阅读
    无线<b class='flag-5'>麦克风</b>SRRC认证

    麦克风的静电保护

    麦克风,英文:Microphone 话筒,是将声音信号转换为电信号的能量转换器件,作为与人体接触的设备,存在ESD 电气危害。 麦克风线路的标准信号最大值通常为 5.5 Vp-p,最大
    的头像 发表于 02-05 13:42 189次阅读
    <b class='flag-5'>麦克风</b>的静电保护

    探索MAX9814:带AGC和低噪声麦克风偏置的麦克风放大器

    探索MAX9814:带AGC和低噪声麦克风偏置的麦克风放大器 在音频处理领域,一款高性能的麦克风放大器对于确保清晰、高质量的声音捕获至关重要。今天,我们就来深入了解一下Analog Devices
    的头像 发表于 01-19 11:00 676次阅读

    给设备装个 “麦克风”:沉默的机器开口说话,数据全采集

    工业数字化转型的核心,从来不是追求复杂技术,而是数据产生价值。给设备装“麦克风”,本质是打通设备与运维人员的沟通通道,沉默的机器主动传递运行信号,用精准数据替代经验判断。
    的头像 发表于 01-16 10:50 305次阅读
    给设备装个 “<b class='flag-5'>麦克风</b>”:<b class='flag-5'>让</b>沉默的机器开口说话,数据全采集

    为什么你的蓝牙耳机通话清晰?MEMS麦克风是关键

    绝大多数用户不知道,蓝牙耳机和小音箱的清晰通话、主动降噪都依赖MEMS麦克风。本文详解MEMS麦克风原理、优势及其在音频设备中的核心应用,带您了解这项关键科技。
    的头像 发表于 01-05 17:04 969次阅读

    探究 InvenSense ICS - 40214 模拟 MEMS 麦克风:性能与应用全解析

    探究 InvenSense ICS - 40214 模拟 MEMS 麦克风:性能与应用全解析 在当今的电子设备领域,从智能手机到可穿戴设备,麦克风作为音频输入的关键组件,其性能的优劣直接影响着音频
    的头像 发表于 12-26 11:15 554次阅读

    TDK InvenSense ICS - 40800麦克风:性能、设计与应用全解析

    TDK InvenSense ICS - 40800麦克风:性能、设计与应用全解析 在当今的电子设备中,麦克风作为音频输入的关键组件,其性能和可靠性直接影响着设备的音频质量。TDK
    的头像 发表于 12-26 11:15 847次阅读

    AI玩具麦克风技术演进,从拾音到智能交互的跨越

    直接决定了交互的流畅度与准确性。从硬件器件升级到算法优化迭代,一系列技术突破正重塑AI玩具的语音交互体验。   硬件层面,MEMS 麦克风已成为AI玩具的主流选择,其微型化、低功耗特性完美适配玩具的小型化设计需求。楼氏电子推出的
    的头像 发表于 12-24 09:26 4982次阅读

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件 引言 在当今的电子设备设计中,麦克风的性能和易用性至关重要。英飞凌的XENSIV™ MEMS麦克风柔性评估套件为工程师们提供了一种便捷的方式来
    的头像 发表于 12-21 10:55 962次阅读

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件 在如今的电子设备设计中,麦克风作为重要的音频输入组件,其性能评估至关重要。英飞凌推出的XENSIV™ MEMS麦克风柔性评估套件,为工程师们提供
    的头像 发表于 12-18 15:40 592次阅读

    测量麦克风接口指南类型、区别与应用解析你都知道吗?

    测量麦克风常见接口指南——类型、区别与应用解析 测量麦克风结构简单但接口形式却相当多样Lemo、BNC、Microdot、10-32 UNF、M5、SMB…… 不少刚入行的工程师都会问
    发表于 12-15 19:07

    MEMS麦克风设计注意事项和应用指南

    MEMS麦克风以其极致的小巧、卓越的性能、强大的稳定性和极具竞争力的成本,席卷了从消费电子到工业物联网的各个角落。无论是打造清晰通话的TWS耳机,赋予智能设备“听”的能力,还是在嘈杂环境中精准拾音,MEMS麦克风都扮演着至关重要的角色。
    的头像 发表于 08-29 13:48 8520次阅读
    MEMS<b class='flag-5'>麦克风</b>设计注意事项和应用指南

    请问NUC505 支持数字麦克风吗?

    NUC505 支持数字麦克风吗?
    发表于 08-28 07:03

    麦克风CE认证要求

    一、麦克风属于CE强制认证产品麦克风作为电子音频设备,出口欧盟必须完成CE认证,并加贴CE标志。CE认证是强制性的,用于确保产品符合欧盟关于安全、电磁兼容和环保的法规。二、适用的CE指令有
    的头像 发表于 07-28 17:25 1119次阅读
    <b class='flag-5'>麦克风</b>CE认证要求

    数字麦克风的0dBFS对应的信号电平峰值是多少?

    数字麦克风的0dBFS对应的信号电平峰值是多少?所有麦克风都是一样的,还是不同厂家的会有差异?
    发表于 07-14 08:26