0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习将对音频处理产生深远影响 亚马逊团队深度噪声抑制挑战赛中获胜

LiveVideoStack 来源:LiveVideoStack 作者:LiveVideoStack 2020-09-08 09:13 次阅读

该团队的非实时系统是性能最好的,而它的实时系统在整个系统中排名第三,在实时系统中排名第二,尽管只使用了4%的CPU核心。

文 / Arvindh Krishnaswamy 原文链接: https://www.amazon.science/blog/amazon-team-takes-first-place-in-interspeech-2020-deep-noise-suppression-challenge

电子语音通信中,噪音和混响不仅会损害语音清晰度,而且会导致听者在长时间努力理解低质量语音时感到疲劳。在COVID-19大流行期间,我们花在远程会议上的时间越来越多,这一问题比以往任何时候都更加重要。 在今年的Interspeech会议上的深度噪声抑制挑战便是为了帮助解决这个问题的一个尝试,分别在实时语音增强和非实时语音增强上进行比赛。在19个团队中,Amazon取得了最好的结果,在非实时赛道上获得了第一名(阶段1 |阶段2-final),在实时赛道上获得了第二名。

上面是一个有噪声的语音样本(上图) 下面是被研究者的系统抑制了噪声的同一个样本(下图) 为了满足真实世界的需求,我们将实时输入限制在CPU使用量的4%(在i7-8565U内核上测量),这远远低于竞赛所允许的最大限度。 然而,我们的实时输入非常接近(0.03平均意见分数)的第一名,并且击败了其他非实时的输入。 Amazon团队实时和非实时噪声抑制结果的音频示例可以在这里找到。 我们还发表了两篇论文(paper1-offline | paper2-real)来更详细地描述我们的技术方法。 在Interspeech中获胜的技术已经在Alexa通信公告和Drop in Everywhere功能中发布,并且从今天开始,我们的客户也可以通过使用Amazon Chime苹果macOS和微软Windows客户端来进行视频会议和在线会议。

优化的感知 传统的语音增强算法使用人工调整的语音和噪声模型,通常假设噪声是恒定的。 对于某些类型的噪音(例如汽车噪音),在噪音不太大或低混响的环境下,这种方法工作得相当好。不幸的是,它们经常在非平稳噪音上失败,比如键盘噪音和杂音。因此,研究人员转向了深度学习方法。

语音增强不仅需要从噪音和混响中提取原始语音,而且需要以一种人类耳朵感觉自然和愉快的方式进行。这使得自动回归测试变得困难,并使深度学习语音增强系统的设计复杂化。 我们的实时系统实际上通过直接优化了语音的感知特征(spectral envelope and voicing),利用了人类的感知因素同时忽略了与感知无关的方面。由此产生的算法产生了最先进的语音质量,同时保持非常高的计算效率。 对于非实时系统,我们采取了一种不妥协的方法,使用改进的U-Net深度卷积网络从增强的语音压缩每一点可能的质量,从而赢得了输入挑战。

一描绘经被允许使用的研究人员的实时系统的百分比中央处理器核心降噪后的一语音样本的平均意见分数(MOS)的变化的图像 在深度噪声抑制的挑战中,经过处理的音频示例被盲发送给人类听众,由他们对其进行评分,产生平均意见分数(MOS)。 在实时应用程序中,复杂性和质量之间总是需要权衡的。 右边的图显示了我们如何通过增加CPU需求来进一步提高实时提交的质量,或者通过牺牲一些质量来进一步节省CPU的使用。 红点表示提交挑战的实时系统,图像显示了MOS分数相对于不同CPU负载的变化。

人们普遍认为,深度学习最终将对音频处理产生深远影响。 虽然仍有很多挑战,比如数据增强,感知相关的损失函数或者处理看不见的情况,但未来依然非常令人兴奋。

原文标题:亚马逊团队在Interspeech 2020深度噪声抑制挑战赛中获得第一名

文章出处:【微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10444

    浏览量

    206566
  • MOS
    MOS
    +关注

    关注

    30

    文章

    1129

    浏览量

    91468
  • 噪音
    +关注

    关注

    1

    文章

    157

    浏览量

    23775
  • 亚马逊
    +关注

    关注

    8

    文章

    2480

    浏览量

    82378
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119910

原文标题:亚马逊团队在Interspeech 2020深度噪声抑制挑战赛中获得第一名

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA在深度学习应用或将取代GPU

    ,这使其在 AI 应用面临着一些挑战。 Larzul 表示,想要解决这些问题的解决方案便是实现现场可编程门阵列 (FPGA),这也是他们公司的研究领域。FPGA 是一种处理器,可以在制造后定制
    发表于 03-21 15:19

    GPU在深度学习中的应用与优势

    学习中究竟担当了什么样的角色?又有哪些优势呢?一、GPU加速深度学习训练并行处理GPU的核心理念在于并行处理。在
    的头像 发表于 12-06 08:27 720次阅读
    GPU在<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中的应用与优势

    深度学习在语音识别中的应用及挑战

    挑战。 二、深度学习在语音识别中的应用 1.基于深度神经网络的语音识别:深度神经网络(DNN)和循环神经网络(RNN)是
    的头像 发表于 10-10 18:14 500次阅读

    深度学习在医学图像分割与病变识别的应用实战

    地观察和分析。然而,医学图像常常具有复杂的结构、噪声干扰和不同的病变特征,使得传统的图像处理方法难以取得令人满意的结果。基于深度学习的方法通过学习
    发表于 09-04 11:11

    启英泰伦通话降噪方案,采用深度学习降噪算法,让通话更清晰

    消除方案和基于深度学习的降噪方案推出了通话降噪方案,利用该方案可以实时消除回声及环境噪声,并通过算法优化提升语音信号的清晰度和逼真度,使得通话更加清晰、准确,提高语音交流的效率和舒适性,为用户提供更好
    发表于 08-22 17:36

    OpenCV库在图像处理深度学习中的应用

    本文深入浅出地探讨了OpenCV库在图像处理深度学习中的应用。从基本概念和操作,到复杂的图像变换和深度学习模型的使用,文章以详尽的代码和解
    的头像 发表于 08-18 11:33 499次阅读

    深度学习服务器怎么做 深度学习服务器diy 深度学习服务器主板用什么

    。因此,深度学习服务器逐渐成为了人们进行深度学习实验的必要工具。本文将介绍深度学习服务器的DIY
    的头像 发表于 08-17 16:11 547次阅读

    深度学习框架和深度学习算法教程

    深度学习框架和深度学习算法教程 深度学习是机器学习
    的头像 发表于 08-17 16:11 721次阅读

    深度学习框架是什么?深度学习框架有哪些?

    深度学习框架是什么?深度学习框架有哪些?  深度学习框架是一种软件工具,它可以帮助开发者轻松快速
    的头像 发表于 08-17 16:03 1781次阅读

    什么是深度学习算法?深度学习算法的应用

    。 在深度学习中,使用了一些快速的算法,比如卷积神经网络以及深度神经网络,这些算法在大量数据处理和图像识别上面有着非常重要的作用。 深度
    的头像 发表于 08-17 16:03 1484次阅读

    深度学习是什么领域

    深度学习是什么领域  深度学习是机器学习的一种子集,由多层神经网络组成。它是一种自动学习技术,可
    的头像 发表于 08-17 16:02 1214次阅读

    深度学习算法简介 深度学习算法是什么 深度学习算法有哪些

    深度学习算法作为其中的重要组成部分,不仅可以为诸如人工智能、图像识别以及自然语言处理等领域提供支持,同时也受到了越来越多的关注和研究。在本文中,我们将着重介绍深度
    的头像 发表于 08-17 16:02 6823次阅读

    深度学习的七种策略

    深度学习的七种策略 深度学习已经成为了人工智能领域的热门话题,它能够帮助人们更好地理解和处理自然语言、图形图像、语音等各种数据。然而,要想获
    的头像 发表于 08-17 16:02 1310次阅读

    深度学习中的图像分割

    深度学习可以学习视觉输入的模式,以预测组成图像的对象类。用于图像处理的主要深度学习架构是卷积神经
    的头像 发表于 05-05 11:35 842次阅读

    智造之眼丨深度学习应用

    智造之眼®科学设计深度学习各应用流程,在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。
    的头像 发表于 05-04 16:55 477次阅读
    智造之眼丨<b class='flag-5'>深度</b><b class='flag-5'>学习</b>应用