上周,亚马逊在美国西雅图举行的发布会上一口气推出了十余款Alexa设备,大部分设备主要由Alexa语音平台驱动。其中部分设备将增添“耳语模式”功能,使Alexa设备用耳语来回应用户的低声说话。日前,亚马逊Alexa语音系统小组的一位专家Zeynab Raeesy在其博文中揭秘了这一功能的AI基础。
Raeesy在博文中介绍:“如果你在一个有小孩睡觉的房间,当有人走进来时,你会马上低声说话,提醒进来的人你希望房间内能保持安静,而进来的人意识到这一点之后,很可能也会压低声音讲话。”
Raeesy指出,Alexa的耳语模式令人难以理解的地方在于它是清音的,也就是说,它不涉及声带振动,往往比普通的语音在低频段具有更少的能量。她与小组的同事研究了两种能区分正常语音和耳语音的神经网络。
两种神经网络主要在结构上有所区别,一个是MLP(多层感知器),另一个是能进行时间递归的LSTM(长短期记忆)网络,这两者用来做训练的数据是一样的,这些数据包括(1)对数滤波器组能量,或者是用来记录不同频率范围信号能量的语音信号表示;(2)能区别耳语音与正常语音之间信号差异的一组特征。
在测试中,他们发现LSTM的表现结果比MLP更好,具备许多优势。Raeesy解释道,Alexa语音识别引擎的其他组件完全依赖对数滤波器组能量,并给不同的组件提供相同的输入数据,进而使整个系统更加紧凑。
Alexa耳语模式的开发并非一帆风顺,至少在最初阶段是这样的。由于Alexa是通过短时间的沉默(一种被称为“结束指向”的技术)来识别指令的结束或者进行回复,LSTM往往在话语即将结束时降低置信度。为解决这个问题,研究人员将LSTM的输出校准成整个话语的平均值,最终,降低最后1.25秒的语音数据成为维持“耳语模式”性能的关键。
美式英语的耳语模式功能将在今年11月份推出,对耳语模式具体工作原理的介绍将以论文的形式在12月份的IEEE语音技术研讨会上发表。
-
AI
+关注
关注
89文章
38111浏览量
296656
发布评论请先 登录
电子电器气密性检测仪:人性化操作界面,一用就会-岳信仪器
AI赋能6G与卫星通信:开启智能天网新时代
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用
广州唯创电子 WT588F02B-8S 语音芯片:为智能吸尘器注入人性化声音
达辰威AI酒精测试仪有什么优势
信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代
芯资讯|广州唯创电子WT588F02B-8S语音芯片:驱动充电桩智能升级,打造人性化充电体验
华为无线充电台灯怎么使用的?
成本狂降90%!国产芯片+开源模型如何改写AI玩具规则
【「零基础开发AI Agent」阅读体验】+ 入门篇学习
移远通信智能模组全面接入多模态AI大模型,重塑智能交互新体验

Alexa耳语模式——AI技术更显人性化
评论