0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

针对设备上使用的Voice Filter的更新

LiveVideoStack 来源:LiveVideoStack 作者:LiveVideoStack 2020-12-07 13:48 次阅读

语音辅助技术使用户能够使用语音命令与他们的设备进行交互,并且依靠准确的语音识别来确保对特定用户的响应。但是在许多实际的使用案例中,这类技术的输入一般由重叠的语音组成,这给许多语音识别算法带来了巨大的挑战。

2018年,我们推出了VoiceFilter系统,该系统利用了谷歌的Voice Match,通过允许用户注册和登记自己的语音,实现与辅助技术的个性化交互。

虽然VoiceFiltr的方法很成功,并且实现了比传统方法更好的信噪比(SDR),但高效的设备上流媒体语音识别需要解决模型大小、CPU、内存限制和电池使用注意事项和延迟最小化等的限制。

在“Voice Filter-lite方面:针对面向设备上语音识别的流媒体目标语音分离”中,我们推出了针对设备上使用的Voice Filter的更新,该更新可以通过利用选定发言人的注册语音来达到显著提高和改善重叠语音的语音识别。重要的是,该模型可以很容易地与现有的设备语音识别应用程序集成,允许用户在极其嘈杂的条件下访问语音辅助功能,即使互联网连接不可用。我们的实验表明,一个2.2MB的voice filer-lite模型在重叠语音上可以使误词率(WER) 改善25.1% 。

改进设备上的语音识别

虽然最初的VoiceFilter系统非常成功地将目标发言人的语音信号从其他重叠的信号源中分离出来,但它的模型大小、计算成本和延迟,对于移动设备上的语音识别是不可行的。

新的Voice Filter-Lite系统经过精心设计,与设备上的应用程序相适应。Voice Filter-Lite不需要处理音频波形,而是采用与语音识别模型完全相同的输入特征功能(stacked log Mel-filterbanks堆叠的对数Mel滤波器组) , 并通过实时过滤掉不属于目标说话者的组成部分来直接增强这些特征。加上对网络拓扑的多项优化,运行时操作的数量大大减少。在使用Tensor Flow Lite库对神经网络进行量化后,模型大小只有2.2MB,适合大多数设备上的应用程序。

为了训练Voice Filter-Lite模型,将带噪声语音的滤波器组与代表目标发言人身份的嵌入向量(i.e.ad-vector d矢量)一起被输进网络。该网络预测了一个掩码,将其与输入逐元素相乘,从而产生增强的过滤库。在训练过程中,我们定义了一个损失函数来最小化增强滤波器组和干净语音的滤波器组之间的差异。

Voice Fliter-Lite系统的模型架构

Voice Filter-Lite是一种即插即用的模型,它允许实如果说话者没有登记他们的声音,那么实现它的应用程序可以轻松地绕过它。这也意味着语音识别模型和Voice Filer-Lite模型可以分别进行训练和更新,这在很大程度上降低了部署过程中的工程复杂性。

作为即插即用模型,如果发言人没有注册他们的声音,Voice Fliter-Lite可以很轻易地被忽略。

应对过度抑制的挑战

当使用语音分离模型来改进语音识别时,可能会出现两种类型的错误:抑制不足,即模型无法滤除信号中的噪声成分;以及过度抑制,当模型不能保留有用的信号时,导致一些单词从识别的文本中丢失。过度抑制问题尤其严重,因为现代语音识别模型通常已经使用大量的增强数据(如房间模拟和SpecAugment) 进行训练,因此对抑制不足更有鲁棒性。

Voice Filter-Lite通过两种新方法解决了过度抑制的问题。首先,它在训练过程中使用了非对称性损失,使得模型对过度抑制的容忍度低于抑制不足的。其次,它对运行时的噪声类型进行预测,并根据预测结果自适应地调整抑制强度。

检测重叠语音时,Voice Filter-Lite自适应地应用更强的抑制强度。

通过这两种解决方案,Voice Filter-Lite模型在其他场景(如安静或各种噪声条件下的单扬声器语音)的流媒体语音识别方面保持了出色的性能,同时在重叠语音方面仍然提供了显著的改进。从我们的实验中,我们观察到将2.2MB Voice Filter-Lite模型应用于附加性重叠语音后,单词错误率改善了25.1%。对于混响重叠语音,模拟远场设备(如智能家庭扬声器)是一项更具挑战性的任务, 我们还观察到使用Voice Filter-Lite可以改善14.7%的单词错误率。

未来的工作

虽然Voice-Filter Lite在各种设备语音应用程序中显示出了巨大的潜力,但我们也在探索其他几个方向,以使Voice-Filter Lite更有用。首先,我们目前的模型只用英语语音进行训练和评估。我们很高兴能够采用同样的技术来改进更多语言的语音识别。其次,我们想在训练Voice Filter-Lite的过程中直接优化语音识别损失,这可能会进一步提高语音识别,而不仅仅是重叠语音。

感谢

本文所描述的研究代表了谷歌中多个团队的共同努力。贡献者包括Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Philip Chao, Sinan Akay, John Han, Stephen Wu, Hannah Muckenhirn, Ye Jia, Zelin Wu, Yiteng Huang, Marily Nika, Jaclyn Konzelmann, Nino Tasca, and Alexander Gruenstein.Share on Twitter Share on Facebook在Twitter上的分享,在Facebook上的分享。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 流媒体
    +关注

    关注

    1

    文章

    182

    浏览量

    16580
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111838
  • 应用程序
    +关注

    关注

    37

    文章

    3136

    浏览量

    56405

原文标题:使用VoiceFliter-Lite改进设备上的语音识别

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何从USB设备更新软件?

    您们好! 我想通过我的USB设备口,来更新我的软件,那么我怎么操作比较安全呢? 可以直接接收数据然后写入FLASH,但是这样可有点风险性,一旦更新过程中断电, 那么整台机器就要重新写程序了
    发表于 01-12 07:39

    VoIP?Voice VLAN?是如何实现的?

    Voice VLAN是为用户的语音流专门划分的VLAN。
    的头像 发表于 12-25 10:30 531次阅读
    VoIP?<b class='flag-5'>Voice</b> VLAN?是如何实现的?

    如何使用Alexa语音服务集成在受约束的物联网设备设置语音命令

    本指南供硬件和软件架构师学习如何使用Alexa语音服务集成在受约束的物联网设备设置语音命令。AWS物联网核心的Alexa语音服务集成(AIA)将与Alexa Voice Services集成所需
    发表于 08-02 12:53

    在 I/O 看未来 | 多设备相关内容三大更新

    设备更新的三大重要内容回顾,您也可以 查看完整的演讲视频清单等内容,了解更多信息 ! 查看完整的演讲视频清单 https://www.youtube.com/playlist?list
    的头像 发表于 07-12 17:40 245次阅读
    在 I/O 看未来 | 多<b class='flag-5'>设备</b>相关内容三大<b class='flag-5'>更新</b>

    DA14585 Voice RCU 快速入门指南

    DA14585 Voice RCU 快速入门指南
    发表于 07-06 19:42 0次下载
    DA14585 <b class='flag-5'>Voice</b> RCU 快速入门指南

    UM-B-087 DA14585 Voice RCU 硬件手册

    UM-B-087 DA14585 Voice RCU 硬件手册
    发表于 07-06 19:41 0次下载
    UM-B-087 DA14585 <b class='flag-5'>Voice</b> RCU 硬件手册

    UM-B-086 DA14585 Voice RCU 软件手册

    UM-B-086 DA14585 Voice RCU 软件手册
    发表于 07-06 19:41 0次下载
    UM-B-086 DA14585 <b class='flag-5'>Voice</b> RCU 软件手册

    VOICE-RA6E1原理图

    VOICE-RA6E1原理图
    发表于 06-30 20:56 0次下载
    <b class='flag-5'>VOICE</b>-RA6E1原理图

    VOICE-RA4E1原理图

    VOICE-RA4E1原理图
    发表于 06-30 20:56 0次下载
    <b class='flag-5'>VOICE</b>-RA4E1原理图

    VOICE-RA6E1工程手册

    VOICE-RA6E1工程手册
    发表于 06-30 20:28 0次下载
    <b class='flag-5'>VOICE</b>-RA6E1工程手册

    VOICE-RA4E1工程手册

    VOICE-RA4E1工程手册
    发表于 06-30 20:28 0次下载
    <b class='flag-5'>VOICE</b>-RA4E1工程手册

    VOICE-RA2L1原理图

    VOICE-RA2L1原理图
    发表于 06-30 19:35 0次下载
    <b class='flag-5'>VOICE</b>-RA2L1原理图

    VOICE-RA2L1工程手册

    VOICE-RA2L1工程手册
    发表于 06-30 19:27 0次下载
    <b class='flag-5'>VOICE</b>-RA2L1工程手册

    在MATRIX Voice ESP32上开始使用蓝牙

    电子发烧友网站提供《在MATRIX Voice ESP32上开始使用蓝牙.zip》资料免费下载
    发表于 06-20 15:30 1次下载
    在MATRIX <b class='flag-5'>Voice</b> ESP32上开始使用蓝牙

    运行Google Assistant的MATRIX Voice和MATRIX Creator

    电子发烧友网站提供《运行Google Assistant的MATRIX Voice和MATRIX Creator.zip》资料免费下载
    发表于 06-13 09:44 0次下载
    运行Google Assistant的MATRIX <b class='flag-5'>Voice</b>和MATRIX Creator