0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音UI的基本原则

星星科技指导员 来源:嵌入式计算设计 作者:Paul Beckmann 2022-10-25 16:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Amazon Echo和Google Home中的语音用户界面(语音UI)功能吸引了消费者的注意。语音识别系统的效率很大程度上取决于麦克风阵列和算法集合,这些算法允许阵列聚焦于用户的语音并拒绝不需要的噪声。下面解释这些算法的基本功能。

触发/唤醒词

语音 UI 系统使用分配的触发词(如“Alexa”或“确定谷歌”)来激活语音 UI 设备。设备必须使用自己的算法立即进行识别,因为使用互联网资源会产生太多的延迟。

触发词必须产生一个独特的波形,该波形可以使算法与正常语音区分开来,否则成功识别的百分比可能低得令人无法接受。通常,使用三到五个音节的触发词是最好的。

小触发词算法占用较少的内存和处理,但犯更多的错误,而大的算法需要更多的资源,但犯的错误更少。模型也是可调的 - 它们可以更严格(更少的误报,但更难触发)或更宽松(更多的误报,但更容易触发)。大多数产品设计师选择更严格的调整,因为客户对错误触发没有同情心。

图 1 比较了不同调谐点的三触发模型的性能。在测试条件下,每小时实现少于两个错误触发器是一个合理的目标。小模型只能通过图形最左侧的两个最严格的调谐来实现这一点。中型和大型型号在更宽的工作范围内实现了这一目标。

pYYBAGNXm7eAXMiVAAFTjAUgeAU218.png

图 1. 每小时使用小型、中型和大型算法模型测试误报,左侧调整更严格,右侧调整更宽松。

到达目的地(到达方向)

一旦触发词被识别出来,下一步就是确定用户语音的到达方向(DOA)。一旦确定了方向,DOA算法就会告诉波束成形算法它应该聚焦在哪个方向。

DOA算法的核心功能是检查来自阵列中不同麦克风的信号的相位关系,并使用此信息来确定哪个麦克风首先接收声音。但是,由于来自墙壁,地板,天花板和房间内其他物体的反射,用户的声音也将从其他方向传来。为此,DOA算法包括优先逻辑,它将更响亮的初始到达与更安静的反射分开。

DOA 算法的操作通过自动调整环境噪声水平得到增强。该算法测量房间内的平均噪声水平,并且仅当输入信号至少比环境噪声水平高出一定数量的分贝时,才会重新计算用户嘴巴的位置。

回声消除器

为了更好地关注用户的声音,语音 UI 设备必须从其麦克风拾取的声音中减去自己的扬声器产生的声音。这似乎很简单,就像将节目材料的相位反转版本混合到来自麦克风的信号中一样简单。然而,该过程不足以处理扬声器对波形的改变、数字信号处理(DSP)均衡、麦克风和声学反射。

AEC算法中的第一步是将麦克风的输出与原始(前DSP)输入信号进行比较,并计算校正曲线,以从语音命令的波形中减去扬声器的直接声音。

第二步是减去声学回声。该算法必须在一定的误差范围内“寻找”与节目材料匹配的声音(以补偿由声学引起的波形变化),以及对应于预期混响时间的已定义时间窗口内的声音。由于每个麦克风接收的回声集略有不同,并且来自扬声器的直接声音也不同,因此要实现最佳性能,需要对每个麦克风进行单独的 AEC 处理。

AEC 查找反射的时间段称为“回波尾部长度”。回声尾部长度越长,可以消除的反射越多,算法的性能就越好。然而,较长的尾巴需要更多的内存和更多的处理。图2显示了回声消除器在逐渐增加混响的房间中的表现。对更长的回声尾部的需求是显而易见的。

poYBAGNXm8KACjm8AAFJhHlrwKk343.png

图 2. 回声消除器在四个房间中表现,混响时间增加。较大的房间受益于使用长回声尾部的算法。

波束成形

波束成形允许麦克风阵列聚焦于来自特定方向的声音。它提高了信噪比(SNR),因为它有助于隔离用户的声音,同时抑制来自其他方向的声音。

例如,如果用户位于麦克风阵列的一侧,而空调位于另一侧,则来自空调的声音首先到达用户对面的麦克风,然后在几分之一秒后到达离用户最近的麦克风。波束成形算法使用这些时差来消除空调声音,同时保留用户的声音。

具有两个麦克风的阵列取消声音的能力有限,但具有三个或更多麦克风的阵列可以消除来自更多方向的声音。麦克风越少,性能就越会随着视角(用户的声音与语音 UI 产品前轴之间的角度)的变化而变化。

虽然麦克风阵列系统使用定向拾音模式来滤除噪声,但某些噪声可以通过识别将噪声与所需信号分离的特性,然后消除噪声的算法进行衰减。降噪算法可以帮助触发单词识别,并在所有其他算法完成其工作后提高语音UI性能。

语音命令是瞬时事件。可以检测到始终存在或重复的任何声音,并将其从来自麦克风阵列的信号中删除。示例包括汽车中的道路噪声,以及家庭中的洗碗机和HVAC系统噪声。高于或低于人声频谱的声音也可以从信号中滤除。

手机中使用的常见降噪算法倾向于突出显示对人类理解最关键的频谱,而不是对电子系统隔离和理解语音命令最关键的频谱。大多数此类算法实际上会降低语音 UI 性能。简单地说,人类听的东西与语音UI系统不同。

图3显示了在有和没有降噪的情况下触发字检测的功效。降噪算法将整体语音识别提高了2 dB -考虑到用户的声音通常仅比周围噪声大几dB,这是一个很大的差异。

pYYBAGNXm86AEU3SAAFj-NKmSMQ786.png

图 3. 降噪算法对触发字检测的影响。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    561

    文章

    8289

    浏览量

    369030
  • 触发器
    +关注

    关注

    14

    文章

    2065

    浏览量

    63629
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直供微电网设计中,设备选型的基本原则如何应用于实际项目中

    模式等灵活适配,西格电力提供智能微电网系统解决方案,咨询服务:1.3.7-5.0.0.4-6.2.0.0。本文将先明确直供微电网设备选型的核心基本原则,再结合不同类型实际项目,详细拆解各原则的落地应用路径,为直供微电网设备选型提供实操性参考。
    的头像 发表于 03-10 14:27 274次阅读
    直供微电网设计中,设备选型的<b class='flag-5'>基本原则</b>如何应用于实际项目中

    电气接线规范详解

    电气接线是电力系统、工业设备及民用建筑中不可或缺的基础环节,其规范性和安全性直接关系到设备运行稳定性和人身财产安全。以下从基本原则、常见类型、操作规范及安全注意事项四个方面,系统阐述电气接线的核心
    的头像 发表于 01-18 07:41 1417次阅读

    直供微电网设计中,设备选型的基本原则是什么?

    、运行模式灵活”的特性,需围绕“安全优先、适配场景、经济高效、可靠可控、绿色兼容”五大核心导向,建立科学的设备选型原则体系。以下将从五大核心原则出发,详细拆解直供微电网设备选型的关键逻辑与实践要求。
    的头像 发表于 01-16 10:12 504次阅读
    直供微电网设计中,设备选型的<b class='flag-5'>基本原则</b>是什么?

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。语音识别IC的核心功能在于实现语音识别,即让
    的头像 发表于 01-14 15:22 508次阅读
    <b class='flag-5'>语音</b>识别IC分类,<b class='flag-5'>语音</b>识别芯片的工作原理

    基于i.MX RT106V跨界MCU的智能语音UI边缘就绪解决方案

    基于i.MX RT106V跨界MCU的智能语音UI边缘就绪解决方案 在当今智能化的时代,智能语音交互技术在工业和物联网领域的应用越来越广泛。NXP推出的基于i.MX RT106V跨界MCU的智能
    的头像 发表于 12-24 17:15 835次阅读

    RUI Builder 图形化UI设计工具

    RUI Builder 图形化UI设计工具 该软件为图形化UI设计软件,搭配瑞佑图形处理器,轻松设计UI界面!主要特色功能: 在PC上直接设计界面,再生成UI渲染源码(.c),程序中
    发表于 12-12 20:14

    RESTful API设计原则: 构建易用、可扩展的API接口。

    一、理解REST架构的核心约束 1.1 RESTful API的六大基本原则 Roy Fielding博士在其博士论文中定义了REST架构的六大核心约束: 统一接口(Uniform
    的头像 发表于 10-24 10:45 806次阅读

    RESTful API设计原则: 构建易用、可扩展的API接口

    基本原则 Roy Fielding博士在其博士论文中定义了REST架构的六大核心约束: 统一接口(Uniform Interface):确保API使用标准化的交互
    的头像 发表于 10-20 13:45 1668次阅读

    电气设计线号标记规则

    在电气工程设计中,线号标记是保证系统可维护性和安全性的基础工作。一套科学、规范的线号标记规则不仅能提高施工效率,还能为后续的检修、改造提供清晰指引。本文将系统介绍电气设计中线号标记的基本原则、常用
    的头像 发表于 08-23 23:12 5998次阅读
    电气设计线号标记规则

    HarmonyOS AI辅助编程工具(CodeGenie)UI生成

    UI Generator基于BitFun Platform AI能力平台,用于快速生成可编译、可运行的HarmonyOS UI工程,支持基于已有UI布局文件(XML),快速生成
    发表于 07-10 11:51

    零知开源——STM32F4实现ILI9486显示屏UI界面系列教程(四):相册预览和大图功能

    支持、动画过渡等,并总结了开发注意事项和UI设计建议。该设计符合现代UI原则,在低端硬件上也能保持流畅交互。
    的头像 发表于 06-27 12:01 1094次阅读
    零知开源——STM32F4实现ILI9486显示屏<b class='flag-5'>UI</b>界面系列教程(四):相册预览和大图功能

    请问如何通过OpenVINO™加速启用稳定的扩散 Web UI

    无法运行具有OpenVINO™加速的稳定扩散 Web UI
    发表于 06-24 06:48

    UI开发概述

    基于ArkTS的声明式开发范式的方舟开发框架是一套开发极简、高性能、支持跨设备的UI开发框架,提供了构建应用UI所必需的能力,主要包括: ArkTS ArkTS是优选的主力应用开发语言,围绕
    发表于 06-24 06:36

    使用 ai cude 里面自带的案例训练UI显示异常的原因?怎么解决?

    案例的配置是默认的,显示训练ui更改显示异常
    发表于 06-23 06:21

    高速PCB布局/布线的原则

    目录:一、布线的一般原则1、PCB板知识2、5-5原则3、20H原则4、3W/4W/10W原则(W:Width)5、重叠电源与地线层规则6、1/4波长规则7、芯片引脚布线二、信号走线下
    的头像 发表于 05-28 19:34 2770次阅读
    高速PCB布局/布线的<b class='flag-5'>原则</b>