0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习在语音增强中的应用

硬件设计技术 来源:21dB声学人 2023-07-11 09:39 次阅读

随着科学技术的发展,语音作为新一代人机交互方式,成为人和智能设备、语音助手交流的重要接口,然而在真实环境中,语音信号不可避免的被各种噪声所干扰,除了各种环境噪声,声波在封闭空间中的衰减和延时反射所引起的混响等都会影响语音的感知质量,研究者将真实场景下影响语音质量的因素总结为三个方面:环境噪声、房间混响和其他说话人干扰,语音增强的目的就是消除上述三个方面的影响。语音增强是指利用音频信号处理的技术以及算法提高失真语音信号的整体感知质量或者可懂度。

语音去噪

深度学习在语音降噪中的应用广泛,根据处理语音的通道数不同,可以分为单通道降噪和多通道降噪,其中单通道语音的去噪由俄亥俄州立大学的汪德亮团队提出的基于DNN-SVM算法,后来又相继提出CRNN、DP-SARNN和Transformer等算法,Zhang等人[1]人提出了双分支神经网络DBNet同时在时域和频域上解决语音增强的问题。而深度学习在多通道语音增强中常常结合空间信息或者传统算法例如波束形成等实现去噪,例如具有代表性算法的基于掩蔽的波束形成技术[2]。利用深度学习进行语音去的算法一般包括非端到端语音降噪方法和端到端语音降噪算法。其中非端到端语音降噪的算法常用的处理方式有基于掩膜的方法和基于特征映射的方法。

wKgaomSssumAdMjCAAKdnojtLxQ359.jpg

基于深度学习非端到端语音去噪方法框图

wKgaomSssumAdmrLAAEd60Q59jg171.jpg

基于深度学习端到端语音去噪算法框图

基于掩膜的语音增强

基于时频掩蔽的语音增强方法将描述纯净语音与噪声之间相互关系的时频掩蔽作为学习目标,该方法假设纯净语音信号与噪声之间有一定的独立性,理想二值掩蔽(Ideal Binary Mask,IBM)是最初被引入语音增强的时频掩蔽方法,该掩蔽方法通过判断某个时频单元内语音与噪声主导情况将连续的时频单元离散化为0或1两种状态,IBM公式如下所示:

wKgZomSssumAbW9UAAANXR79q2Q738.jpg

通过IBM的公式可以看出只有0、1两种取值,可以一定程度提高语音质量,但这种方法对于带噪语音的处理过于简单粗暴,会在处理过程中引入较大的噪声。

基于语音和噪声独立假设的情况下,基于比值掩蔽的方法刻画了时频单元内纯净语音能量和带噪语音能量的比值,该类掩蔽方法中常用的有理想比值掩蔽(Ideal Ratio Mask,IRM)。IRM相较于IBM从离散的状态值变为连续的状态值,相较之下可以有效的提升语音的质量和可懂度,但是缺点是利用带噪语音的相位信息对纯净语音进行了重构。

除了上述两种掩蔽方法,仍然有许多的掩蔽方法,例如基于信号能量比值的理想幅度掩蔽(Ideal Amplitude Mask,IAM),考虑相位误差的时频掩蔽方法的相位敏感掩蔽(Phase Sensitive Mask,PSM),广泛应用的复数域的复数理想比率掩蔽(Complex Ideal Ratio Mask,cIRM)以及最佳比例掩膜(Optimal Ratio Mask,ORM)等等。这些掩蔽根据语音以及噪声的幅度谱或者功率谱计算获得,通过网络计算得到估计掩蔽后,将带噪语音信号与时频掩蔽相乘得到纯净语音信号,进而得到干净语音的时域波形。

基于特征映射的方法

基于特征映射的语音增强方法是通过网络完成带噪语音特征和干净语音特征之间的映射关系,常见的特征映射包括目标幅度谱(TMS)、短时傅里叶变换幅度谱(STFT)等,通过带噪语音估计纯净语音特征,将得到的谱图与带噪语音相位结合,从而得到语音波形。另外声学特征也可以被用作特征映射深度学习的目标,例如Chen等人[3]探索了低信噪比下已经被用作语音分离和语音增强的一系列特征的表现,包括了Mel域特征中的MFCC和DSCC,线性预测特征中的PLP特征和RASTA-PLP特征,gamma域中的GF特征、GFCC特征和GFMC特征,信号自相关域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征,调制域中的GFB特征和AMS特征等。Wang等人[4]提出一种单声道和多声道语音增强的复数频谱映射方法,利用DNN从带噪信号中预测纯净语音的实部和虚部,并融合波束形成算法得到在 CHiME-4语音数据集上WER较好的性能提升。

基于端到端的方法

监督语音增强大部分是在时频域进行的,端到端的语音增强对原始时域波形信号直接进行处理,由于不依赖于频域表示,避免了语音相位信息的丢失以及重构增强语音时使用带噪语音相位可能导致的性能下降问题,使得模型流程简化。Ritwik Giri等人[5]提出了带有注意力机制的U-Net应用于语音增强,在VCTK数据集上测试多信噪比情况下PESQ、SSNR等评价指标都得到了提升。

语音去混响

混响语音为信号和房间冲激响应(Room Impulse Response,RIR)的卷积,这会使得语音信号在时域和频域都发生畸变,导致语音可懂度的下降。利用深度学习的混响消除算法包括三类算法,直接预测、间接预测和联合传统算法。

wKgZomSssumAHfOVAAK7UeQgJos295.jpg

直接预测的方法为混响语音信号直接映射到纯净语音信号,间接预测的方法例如可以通过预测后期混响信号间接性得到目标语音信号,联合传统算法为将DNN与WPE等算法进行结合,通过网络预测WPE算法中间参数从而去除迭代计算的操作。Han等人[6]在2014年首先提出了基于DNN的语音去混响方法,这种方法在耳蜗图上使用谱映射,DNN被训练成从混响语音帧映射到干净语音帧。Zhao等人[7]通过LSTM预测语音信号晚期混响间接得到目标语音信号,Kinoshita K[8]通过LSTM网络预测WPE算法中的中间参数进而实现混响消除。

语音增强作为语音识别中的一项核心关键技术,广泛应用在各种场景之中,国内外研究人员针对语音增强提出了许多算法,深度学习的广泛应用也为来研究领域带来了新的突破,但是语音增强领域仍然有许多问题,例如泛化性能、相位失真问题和低信噪比下的应用效果不理想,未来的语音增强仍然充满挑战。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1130

    浏览量

    54760
  • 噪声
    +关注

    关注

    13

    文章

    1070

    浏览量

    47062
  • SVM
    SVM
    +关注

    关注

    0

    文章

    154

    浏览量

    32187
  • 语音增强
    +关注

    关注

    0

    文章

    12

    浏览量

    8728
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119910

原文标题:深度学习在语音增强中的应用

文章出处:【微信号:硬件设计技术,微信公众号:硬件设计技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA深度学习应用或将取代GPU

    硬件公司供货的不断增加,GPU 深度学习的市场需求还催生了大量公共云服务,这些服务为深度学习
    发表于 03-21 15:19

    深度学习汽车的应用

    神经系统,因此支持人工智能的概念。图 2:简易反向传播示例尽管深度学习具有效力,但其实际应用也遇到了一些挑战。对于容易受到系统限制因素(如总体成本、功耗和扩展计算能力)影响的嵌入式
    发表于 03-13 06:45

    深度学习的图片如何增强

    深度学习的图片增强
    发表于 05-28 07:03

    深度学习的IoU概念

    深度学习的IoU概念理解
    发表于 05-29 09:24

    深度学习预测和健康管理的应用

    深度学习预测和健康管理的应用综述摘要深度学习对预测和健康管理(PHM)引起了浓厚的兴趣,因为
    发表于 07-12 06:46

    什么是深度学习?使用FPGA进行深度学习的好处?

    ) 来解决更复杂的问题,深度神经网络是一种将这些问题多层连接起来的更深层网络。这称为深度学习。目前,深度学习被用于现实世界
    发表于 02-17 16:56

    基于自适应探索改进的深度增强学习算法

    基于自适应探索改进的深度增强学习算法_毛坚桓
    发表于 01-08 15:15 1次下载

    苹果Siri深度学习语音合成技术揭秘

    Siri 是一个使用语音合成技术与人类进行交流的个人助手。从 iOS 10 开始,苹果已经在 Siri 的语音中用到了深度学习,iOS 11 中的 Siri 依然延续这一技术。使用
    发表于 05-26 07:20 3073次阅读
    苹果Siri<b class='flag-5'>深度</b><b class='flag-5'>学习语音</b>合成技术揭秘

    机器听觉解决方案供应商大象声科获得小米和高通创投的数千万人民币的Pre-A轮战略投资

    深度学习语音增强技术是该领域的新起之秀,却有攻入破竹之势。不同于主流而传统的数字信号处理方法,它借鉴机器学习的思路,通过有监督的训练实现语音
    的头像 发表于 07-12 10:54 4053次阅读

    如何使用深度学习实现语音声学模型的研究

    的分析识别更是研究的重中之重。近年来深 10 度学习模型的广泛发展和计算能力的大幅提升对语音识别技术的提升起到了关键作用。本文立足于语音识别与深度
    发表于 05-09 08:00 41次下载
    如何使用<b class='flag-5'>深度</b><b class='flag-5'>学习</b>实现<b class='flag-5'>语音</b>声学模型的研究

    一种基于准循环神经网络的语音增强方法

    在基于深度学习语音增强模型中,长短时记忆网络能较好地解决序列语音增强问题,但该模型在处理大规模
    发表于 04-29 15:45 5次下载
    一种基于准循环神经网络的<b class='flag-5'>语音</b><b class='flag-5'>增强</b>方法

    基于深度神经网络的因果形式语音增强方法

    传统的基于深度神经网络(DNN)的语音增强方法由于采用非因果形式的输入,在处理过程中具有固定延时,不适用于实时性要求较高的场合。针对这一问题,从网络结构角度展开研究,通过实验对不同网络结构在不同输人
    发表于 06-10 11:29 8次下载

    基于深度学习语音合成技术的进展与未来趋势

    近年来,深度学习技术在语音合成领域取得了显著的进展。基于深度学习语音合成技术能够生成更加自然、
    的头像 发表于 09-16 14:48 533次阅读

    深度学习语音识别中的应用及挑战

    一、引言 随着深度学习技术的快速发展,其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音
    的头像 发表于 10-10 18:14 499次阅读

    基于深度学习的情感语音识别模型优化策略

    情感语音识别技术是一种将人类语音转化为情感信息的技术,其应用范围涵盖了人机交互、智能客服、心理健康监测等多个领域。随着人工智能技术的不断发展,深度学习在情感
    的头像 发表于 11-09 16:34 257次阅读