0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

电子工程师 来源:工程师李察 2019-05-05 11:19 次阅读

神经网络的调参无疑是一个巨大的工程。

如何在调参之前拥有更佳的表现?千辛万苦调好了但却过拟合,如何拥有更好的泛化能力?这无疑是人肉调参的必经之痛。一个通用的认知是,训练数据会限制模型表现的上限,能拥有更好的训练数据,无疑成功了一大截儿。

近日,Daniel S. Park 等人在自动语音识别(Automatic Speech Recognition,ASR)模型训练上,找到了一种简单却强大的数据增强方法——SpecAugment。该操作另辟蹊径,将原始语音数据生成的梅尔倒谱图直接进行图像变换,扩增训练数据,化腐朽为神奇,结果很棒。

啥是自动语音识别

自动语音识别,即依托深度神经网络模型将语音自动识别为文本输入,无论是 Siri 助手还是微软小冰,抑或占据生活一部分的微信,都有它的身影,相信这个时代的你也早已习惯用语音转输入解放双手。

传统 ASR 模型的原始输入数据一般先经过预处理,将收集的音波转化为频谱图如梅尔倒频谱,也即梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC,一定程度上模拟了人耳对声音的处理特点)的谱图。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 音波转化为梅尔倒频谱图结果示意图(来源:Daniel S. Park,et al./ Google Brain)

梅尔倒谱的一般流程是将声音信号进行傅立叶转换得到频谱,再进行取对数以及取逆傅立叶变换。

传统 ASR 模型扩增数据一般是将收集到的音波进行改变加速、减速、加背景噪音等变换来进行数据集的丰富,最后,这种扩增后的音频也要转化为频谱图。

然而,直接改变频谱图进行数据扩增,能否提升模型表现?毕竟,图像领域的扩增手段十分丰富,直接将频谱作为图像用一定手段进行变换结果如何?

Daniel S. Park 等人的 SpecAugment 方法证明,这是一个简单易行的好路子,可以实现在线训练,计算成本低廉无需额外数据,还能使 ASR 任务 LibriSpeech 960h(语音识别技术的最权威主流的开源数据集,包括近 1000 小时的英文发音和对应文字)和 Switchboard 300h(交换机电话语音语料库)比目前最佳模型的表现更好。

SpecAugment 的“出彩”之处

首先,在模型训练之前将输入数据——音频数据的梅尔倒谱,进行图像处理,这也是 SpecAugment 这条野路出彩的基础。即对梅尔倒频谱的横轴一段时间步长的频谱进行左或右扭转翘曲、或者掩蔽一段时长的谱图(时间屏蔽,对纵向进行掩蔽)、或是某些梅尔频率的信号(频率屏蔽,对横向进行掩蔽),得到了一系列的扩增样本。

这样的处理使得模型能够学习到时间轴上发生损失变形的音频、部分频率缺失的音频,以及丢失部分语音片段的音频的特点,增加了训练模型对这些信息的处理能力,也增强模型的泛化能力。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 梅尔倒频谱的扩增变换手段:从上到下依次为没有应用增强、一定时间步长的扭曲,频率屏蔽和时间屏蔽。(来源:Daniel S. Park,et al/ Google Brain)

模型训练

输入数据处理完毕后,训练语音识别模型,这里采用 LAS(Listen Attend and Spell networks)模型。LAS 模型主要是由 Listener 和 Speller 两个子模型组成,其中 Listener 是一个声学编码器(Encoder,收集数据,相当于“听”),Speller 是一个基于注意力机制的解码器(Decoder,将收集的特征翻译成字符,相当于“说”)

训练 SpecAugment 的 Listener 子模型:输入的梅尔倒谱首先经两层卷积神经网络(CNN),经最大池化且步幅为 2,得到的结果输入到 BLSTM(双向长短期交替记忆模型)中,产生尺寸为 d x w 的基于注意力机制的特征。

训练 SpecAugment 的 Speller 子模型:将上一步骤中基于注意力机制产生的特征向量输入到一个二层 RNN(Recurrent Neural Network)模型中,训练集中的文本已用 WPM(Word Piece Model)进行了 token 处理,利用集束搜索(Beam Search),集束宽为 8,得到 token 表示的预测文本(token 处理即分词处理,之后进行词嵌入,自然语言处理利用词嵌入来将词向量化表示)。至此,实现语音转文本过程。

提升表现

比较训练集扩增前后训练出的 LAS 模型在测试集上的词错误率(Word Error Rate,WER),不改变任何超参数,测试结果错词率显著降低,可见无需调参,扩增训练集效果明显。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 扩增训练集与否的两个模型在数据集 LibriSpeech 上有噪音测试集和无噪音测试集的表现。(来源:Daniel S. Park,et al/ Google Brain)

对于过拟合问题,虽然训练集上利用扩增的模型表现与无扩增相差并不是很多,但在开发集上,WER 有明显的降低,说明模型泛化能力提升,可以预测未训练过的数据,过拟合得到解决。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 扩增训练集与否的两个模型在训练集、有噪音开发集和无噪音开发集集上的表现(来源:Daniel S. Park,et al/ Google Brain)

这个模型啥水平?

1)优于现有最佳 ASR 模型

扩增训练集后调整模型参数以及适当训练迭代,使得模型表现达到最佳,在数据集 LibriSpeech 960h 和 Switchboard 300h 有无噪音的测试集上,扩增模型表现与现有最佳模型的错词率结果对比发现,扩增方法明显取胜。无论是传统 ASR 模型(如 HMM)还是端到端的神经网络模型(如 CTC/ASG),采用 SpecAugment 方法训练后的 LAS 模型表现都明显更好。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同模型的表现(来源:Daniel S. Park,et al/ Google Brain)

2)优于利用语言模型的 ASR 模型

引入利用大量纯文本语料库训练的语言模型(Language Models,LMs)能够使 ASR 模型效果大大提升,因为可以用语料库中的大量信息使模型功能更强,这也是 ASR 任务的一个通用做法。语言模型一般是独立训练的,使用 ASR 模型时需要占据一定内存进行存储,这使其难以在小型设备上应用。而 SpecAugment 模型的优势是,即使不利用语言模型也优于现有引入语言模型的 ASR 模型。这意味着语言模型的大内存问题,有了解决之路。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同 ASR 模型引入语言模型有否的表现(来源:Daniel S. Park,et al/ Google Brain)

总结,利用改变频谱图的方式扩增音频数据样本,训练出的 ASR 模型表现极佳,优于现有最好模型,甚至超过引入语言模型,很好用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98745
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111833
  • 图像变换
    +关注

    关注

    0

    文章

    5

    浏览量

    1495

原文标题:简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    车内语音识别数据在智能驾驶中的价值与应用

    车内语音识别数据在智能驾驶中的价值与应用 一、引言 随着智能驾驶技术的不断发展,车内语音识别数据在智能驾驶中的应用越来越广泛。车内语音
    的头像 发表于 02-19 11:47 246次阅读

    车内语音识别数据在智能驾驶中的应用与挑战

    一、引言 随着智能驾驶技术的不断发展,车内语音识别数据在智能驾驶中的应用越来越广泛。车内语音识别技术为驾驶员提供了更加便捷和安全的驾驶体验,同时也为智能驾驶系统的智能化和个性化提供了有
    的头像 发表于 01-26 18:14 771次阅读

    UCB_SWAP配置信息共16,写入一条有效配置后,上一条需写1使配置无效是为什么?

    UCB_SWAP配置信息共16,写入一条有效配置后,上一条需写1使配置无效。 经过实测发现配置是从下至上检索,取最后一条
    发表于 01-24 08:31

    离线语音识别及控制是怎样的技术?

    了对网络依赖的程度。  二、离线语音识别技术的优势  离线语音识别的优势主要体现在以下几个方面:  1. 隐私保护:离线语音
    发表于 11-24 17:41

    车内语音识别数据:驾驶体验升级与智能出行的未来

    车内语音识别数据是指在汽车内部通过语音识别技术对驾驶员和乘客的语音指令进行处理和响应的数据。随着
    的头像 发表于 11-08 17:01 218次阅读

    离线语音识别和控制的工作原理及应用

    神经网络(RNN)和卷积神经网络(CNN)是最常用的两种技术。RNN 适用于处理时间序列数据,如语音信号,而 CNN 则适用于处理具有网格结构的数据,如图像。通过深度学习技术,可以有效
    发表于 11-07 18:01

    深度学习在语音识别中的应用及挑战

    一、引言 随着深度学习技术的快速发展,其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识别的精度和效率,并且被广泛应用于各种
    的头像 发表于 10-10 18:14 497次阅读

    车载语音识别数据的应用与挑战

    随着人工智能技术的迅猛发展,车载语音识别数据成为汽车科技领域的一项重要资源。车载语音识别技术将语音信号转化为可操作的指令,使驾驶员能够在驾驶
    的头像 发表于 08-28 23:00 290次阅读

    车载语音识别数据的技术进展与前景

    近年来,随着人工智能和语音识别技术的飞速发展,车载语音识别数据的应用前景愈加广阔。车载语音识别
    的头像 发表于 08-28 17:15 260次阅读

    车载语音识别数据的社会影响与未来展望

    随着车载语音识别数据的技术不断进步,其社会影响也变得愈发显著。车载语音识别技术的普及不仅将改变驾驶员与车辆之间的互动方式,还将深刻影响交通安全、用户体验以及出行方式。
    的头像 发表于 08-28 16:55 284次阅读

    方言语音识别数据驱动人工智能的多元文化发展

    人工智能作为一项引领科技发展的关键技术,正在改变着我们的生活方式和社会格局。然而,传统的人工智能系统往往集中在标准语言的识别和处理上,忽视了世界上众多方言的存在。方言语音识别数据的引入为人
    的头像 发表于 07-11 15:21 627次阅读

    车内语音识别数据是驱动智能出行的新动力

    随着人们对智能化出行的需求不断增长,车内语音识别技术成为了汽车领域的重要创新。而这项技术的发展离不开车内语音识别数据的支持,它为智能车辆提供了更加便捷、智能的人机交互体验。 车内
    的头像 发表于 07-09 00:46 299次阅读

    情感语音识别数据的重要性及其在人机交互领域的应用

    随着人工智能技术的迅猛发展,情感语音识别作为一种重要的人机交互技术,逐渐引起了广泛关注。本文将探讨情感语音识别数据的重要性,并介绍其在人机交互领域的应用。通过分析和理解人类的情感状态,
    的头像 发表于 06-24 03:47 661次阅读

    语音识别技术发展的驱动力:语音数据的采集和处理

    语音识别技术是一项基于人工智能的技术,通过计算机对人的语音进行分析和处理,将语音转化成文字,以此达到自动化处理的目的。
    的头像 发表于 05-15 09:27 746次阅读

    采用modbus的串口链,这3个设备公用一条,该如何设设置?

    采用modbus的串口链,这3个设备公用一条,该如何设设置?有个主控屏,台pc上位机,和
    发表于 05-05 16:17