0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook发布全卷积神经网络语音识别模型,开源语音处理深度学习工具包

nlfO_thejiangme 来源:lq 2018-12-26 09:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音识别领域先进的神经网络一般使用rnn来构建声学或者语言模型,并基于特征抽取的方式来进行抽取梅尔滤波器特征或者倒谱系数。但在最近的研究工作中,Facebook的研究人员提出了完全基于卷积神经网络的全卷积语音识别模型,充分利用了在声学模型和语言模型方面的最新进展。这一全卷积神经网络通过端到端的训练可以直接从原始波形预测出语言字符,移除了特征抽取的过程。同时利用一个外部的卷积语言模型来进行单词解码。这一模型在多个数据集上都取得了优异的表现。

模型

整个模型由四部分组成,分别是卷积前端、声学模型、语言模型和集束搜索的解码器(Beam-search)组成,如下图所示。

在可学习的前端中,原始音频首先输入到一个宽度为2的卷积中,用于模仿梅尔滤波器特征中的前处理步骤。随后应用了宽度为25ms的k复卷积滤波器。随后利用平方取绝对值并通过低通滤波器,其宽度为25ms步长为10ms。最后利用对数压缩,并对每个通道进行了均方归一化。紧随其后的是声学模型,包含了线性门的卷积神经网络,同时使用了dropout来实现正则化。这一模型的目的在于直接预测出字母。在随后的语言模型中,研究人员利用了GCNN-14B,其中包含了14个卷积残差模块和逐渐增长的通道数,并利用了线性门控单元作为激活函数。语言模型的主要目的在于为备选的句子输出打分,这一模型允许更大的上下文。最后,基于集束搜索的解码器用于生成最合适的句子输出。

其工作的过程在于最大化上面的表达式。

工具

这一模型的实现使用了Facebook最新开源的两个工具:其中使用了wav2letter建立声学模型,fairseq建立了语言模型。

fairseq 原理图

同时推出的升级版深度学习自动语音识别工具框架wav2letter++,在之前wav2letter的基础上进行和很多的改进和优化。

wav2letter++ 工具包架构

这一版的工具箱由C++实现,并利用了ArrayFire张量库来提高了运算效率。研究团队表示,在某些情况下wav2letter++在训练端到端的语音识别神经网络时将提速2倍。

wav2letter++ 与其他语言工具的性能比较

端到端的语音识别使得其在多语言上的大规模应用变得可行。同时直接从原始音频上进行学习可以充分发挥高质量音频的效果。端到端的算法加上高效的工具框架,将有效促进这一领域的研究,希望全卷积神经网络的语音识别和wav2letter工具为小伙伴们的研究带来新的帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108180
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    59356
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635

原文标题:新模型、新工具,Facebook在语音识别领域的新动作!

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    卷积神经网络如何让自动驾驶识别障碍物?

    自动驾驶的发展过程中,感知系统一直承担车辆“眼睛”的角色,其核心任务是让计算机理解复杂多变的物理世界。卷积神经网络(CNN)作为一种专门用于处理图像和视频等网格状数据结构的深度
    的头像 发表于 04-11 09:59 1456次阅读
    <b class='flag-5'>卷积</b><b class='flag-5'>神经网络</b>如何让自动驾驶<b class='flag-5'>识别</b>障碍物?

    面向嵌入式部署的神经网络优化:模型压缩深度解析

    1.为什么需要神经网络模型压缩? 神经网络已经成为解决复杂机器学习问题的强大工具。然而,这种能力往往伴随着
    的头像 发表于 02-24 15:37 5453次阅读
    面向嵌入式部署的<b class='flag-5'>神经网络</b>优化:<b class='flag-5'>模型</b>压缩<b class='flag-5'>深度</b>解析

    【新品发布】艾为重磅发布端侧AI高性能NPU语音芯片,打造智能语音体验新标杆

    数模龙头艾为电子全新推出高性能NPU神经网络智能语音处理芯片:AWA89601,集成音频专用NPU(神经网络处理器),通过声音
    的头像 发表于 01-07 18:33 547次阅读
    【新品<b class='flag-5'>发布</b>】艾为重磅<b class='flag-5'>发布</b>端侧AI高性能NPU<b class='flag-5'>语音</b>芯片,打造智能<b class='flag-5'>语音</b>体验新标杆

    神经网络的初步认识

    日常生活中的智能应用都离不开深度学习,而深度学习则依赖于神经网络的实现。什么是神经网络
    的头像 发表于 12-17 15:05 460次阅读
    <b class='flag-5'>神经网络</b>的初步认识

    自动驾驶中常提的卷积神经网络是个啥?

    在自动驾驶领域,经常会听到卷积神经网络技术。卷积神经网络,简称为CNN,是一种专门用来处理网格状数据(比如图像)的
    的头像 发表于 11-19 18:15 2249次阅读
    自动驾驶中常提的<b class='flag-5'>卷积</b><b class='flag-5'>神经网络</b>是个啥?

    CNN卷积神经网络设计原理及在MCU200T上仿真测试

    CNN算法简介 我们硬件加速器的模型为Lenet-5的变型,网络粗略分共有7层,细分共有13层。包括卷积,最大池化层,激活层,扁平层,连接层。下面是各层作用介绍:
    发表于 10-29 07:49

    NMSIS神经网络库使用介绍

    :   神经网络卷积函数   神经网络激活函数   连接层函数   神经网络池化函数   Softmax 函数   
    发表于 10-29 06:08

    构建CNN网络模型并优化的一般化建议

    :Dropout层随机跳过神经网络模型中某些神经元之间的连接,通过随机制造缺陷进行训练提升整个神经网络的鲁棒性。 6)指定合理的学习率策
    发表于 10-28 08:02

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型
    发表于 10-22 07:03

    CICC2033神经网络部署相关操作

    读取。接下来需要使用扩展指令,完成神经网络的部署,此处仅对第一层卷积+池化的部署进行说明,其余层与之类似。 1.使用 Custom_Dtrans 指令,将权重数据、输入数据导入硬件加速器内。对于权重
    发表于 10-20 08:00

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络
    的头像 发表于 09-10 17:38 1052次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>神经网络</b>

    基于开源鸿蒙的语音识别语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的
    的头像 发表于 08-25 14:26 4447次阅读
    基于<b class='flag-5'>开源</b>鸿蒙的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>及<b class='flag-5'>语音</b>合成应用开发样例

    广和通发布自研端侧语音识别模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别模型FiboASR。该模型专为端侧设备上面临的面对面实时对
    的头像 发表于 08-04 11:43 1770次阅读

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    。 开发板支持浮点运算,这对于语音信号处理中的精确计算至关重要。在语音识别过程中,需要对语音信号的频率、幅度等参数进行精确计算和分析,浮点运
    发表于 05-28 11:36

    AI神经网络降噪算法在语音通话产品中的应用优势与前景分析

    随着人工智能技术的快速发展,AI神经网络降噪算法在语音通话产品中的应用正逐步取代传统降噪技术,成为提升语音质量的关键解决方案。相比传统DSP(数字信号处理)降噪,AI降噪具有更强的环境
    的头像 发表于 05-16 17:07 1891次阅读
    AI<b class='flag-5'>神经网络</b>降噪算法在<b class='flag-5'>语音</b>通话产品中的应用优势与前景分析