结合卷积和注意机制改进日语ASR-电子发烧友网

自动语音识别（ ASR ）研究通常侧重于高资源语言，如英语，它由数十万小时的语音支持。最近的文献重新关注更复杂的语言，如日语。与其他亚洲语言一样，日语有大量的基本字符集（普通白话中使用了 3000 多个独特的字符），并提出了独特的挑战，例如多个词序。

这篇文章讨论了最近提高日语 ASR 准确性和速度的工作。首先，我们改进了 Conformer ，这是一种最先进的 ASR 神经网络架构，在训练和推理速度方面取得了显著的改进，并且没有精度损失。其次，我们增强了一个具有多头部自我注意机制的纯深度卷积网络，以丰富输入语音波形的全局上下文表示的学习。

语音识别中的深度稀疏整合器

Conformer 是一种神经网络体系结构，广泛应用于多种语言的 ASR 系统中，并取得了较高的精度。然而， Conformer 在训练和推断方面都相对较慢，因为它使用了多头自我注意，对于输入音频波的长度，其时间/内存复杂度为 quadratic 。

这妨碍了它对长音频序列的高效处理，因为在训练和推断过程中需要相对较高的内存占用。这些激励了稀疏关注高效 Conformer 构建。此外，由于注意力较少，内存成本相对较低，我们能够构建一个更深的网络，可以处理由大规模语音数据集提供的长序列。

图 1.深度稀疏 Conformer 的编码器模型架构

如图 1 所示，我们在两个方向上改进了 Conformer 长序列表示能力：稀疏和深入。我们使用一个排名标准，只选择一小部分占主导地位的查询，而不是整个查询集，以节省计算注意力得分的时间。

在执行剩余连接时，使用深度规范化策略，以确保百级 Conformer 块的训练。该策略包括使用一个函数来贴现编码器和解码器部分的参数，该函数分别与编码器层和解码器层的数量相关。

此外，这种深度规范化策略可确保成功构建 10 到 100 层，从而使模型更具表现力。相比之下，与普通 Conformer 相比，深度稀疏 Conformer 的时间和内存成本降低了 10% 到 20% 。

用于语音识别的注意力增强型 Citrinet

NVIDIA 研究人员提出的 Citrinet 是一种基于端到端卷积连接时态分类（ CTC ）的 ASR 模型。为了捕获本地和全局上下文信息， Citrinet 使用 1D 时间通道可分离卷积与子字编码、压缩和激励（ SE ）相结合，使整个体系结构与基于变压器的同类产品相比达到最先进的精度。

将 Citrinet 应用于日本 ASR 涉及几个挑战。具体来说，与类似的深度神经网络模型相比，它的收敛速度相对较慢，并且更难训练出具有类似精度的模型。考虑到影响 Citrinet 收敛速度的卷积层多达 235 个，我们旨在通过在 Citrinet 块的卷积模块中引入多头部注意来减少 CNN 层，同时保持 SE 和剩余模块不变。

图 2.Citrinet 端到端架构和主要构建块

如图 2 所示，加快训练时间需要在每个注意力增强的 Citrinet 块中减少八个卷积层。此外，考虑到自我注意对输入音频波的长度具有二次的时间/记忆复杂性，我们将原来的 23 个 Jasper 块缩减为 8 个块，模型尺寸显著减小。这种设计确保了注意力增强的 Citrinet 对于从 20 秒到 100 秒的长语音序列达到了可比的推理时间。

初步实验表明，基于注意力的模型收敛于 100 到 200 个时间点，而 Citrinet 收敛到最佳错误率需要 500 到 1000 个时间点。在日本 CSJ-500-hour 数据集上的实验表明，与 Citrinet （ 80% 的训练时间）和 Conformer （ 40% 的训练时间和 18.5% 的模型大小）相比， Citrinet 的注意力需要更少的块层，收敛速度更快，字符错误率更低。

总结

通常，我们提出两种新的架构来构建端到端的日本 ASR 模型。在一个方向上，我们改进了基于变压器的 Conformer 训练和推断速度，并保持了其准确性。我们成功地构建了更稀疏和更深入的 Conformer 模型。我们还通过引入多头部自我注意机制和修剪 80% 的 CNN 层，提高了基于 CNN 的 Citrinet 收敛速度和准确性。这些建议是通用的，适用于其他亚洲语言。

关于作者

吴显超博士是 NVIDIA 的高级解决方案架构师。他专注于语音处理和自然语言处理的研究领域。他支持客户在 NVIDIA SDK （如威震天 LM 、 NeMo 和 Riva ）下构建大规模预处理模型和对话人工智能平台。

Somshubra Majumdar 是 NVIDIA NeMo 工具包的资深研究科学家。他于 2016 年获得孟买大学计算机工程学士学位， 2018 年获得芝加哥伊利诺伊大学计算机科学硕士学位。他的研究兴趣包括自动语音识别、语音分类、时间序列分类和深度学习的实际应用。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3360

浏览量
131537
语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111835
ASR

ASR

+关注

关注
2

文章
34

浏览量
18620

卷积神经网络模型发展及应用

神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的模型结构，分析了采用注意力机制进一步提升模型性能的网络结构，然后归纳

发表于 08-02 10:39

μC/OS-II 任务调度机制的改进

介绍μC/OS-II 任务调度机制,并提出一种改进方法,使μC/OS-II变成一个兼备实时与分时任务调度机制的操作系统；论述改进后系统的特点和要注

发表于 04-15 11:21 •14次下载

Snort匹配机制的改进

基于规则的模式匹配是Snort 检测引擎的主要机制，本文在结合协议分析和模式匹配的基础上,对Snort 匹配机制进行了改进。首先对从网络中获取的数据包进行预先处理，利用协议分

发表于 12-18 17:35 •14次下载

ASR控制系统,ASR控制系统是什么意思

ASR控制系统,ASR控制系统是什么意思如图1所示为ASR控制系统的原理框图。

发表于 03-11 17:40 •1.7w次阅读

维纳滤波反卷积算法的改进

应用于相关辨识中的维纳滤波反卷积算法对噪声的适应性不理想，辨识效果不佳。据此分析了维纳滤波反卷积算法在对大地辨识的过程中对噪声适应性不理想的原因，并提出了相应的改进算法：根据检测系统冲激响应的频谱

发表于 11-16 11:01 •11次下载

卷积神经网络的权值反向传播机制和MATLAB的实现方法

降低了网络需要训练的数量级。本文以MINST手写体数据库为训练样本，讨论卷积神经网络的权值反向传播机制和MATLAB的实现方法；对激活函数tanh和relu梯度消失问题进行分析和优化，对改进后的激活函数进行训练，得出最优的修正参

发表于 12-06 15:29 •14次下载

卷积神经网络的七个注意事项

卷积神经网络的七个注意事项

发表于 08-24 16:09 •3601次阅读

端到端深度学习卷积神经网络识别商家招牌

为解决采用卷积神经网络对商家招牌进行分类时存在特征判别性较差的问题，通过在注意力机制中引入神经网络，提岀一种端到端的深度学习卷积神经网络方法。使用卷

发表于 03-12 10:51 •8次下载

结合改进Fisher判别准则与GRV模块的卷积神经网络

传统卷积神经网络（CNN）在建模过程中由于数据样本量不足容易岀现过拟合现象，且对随机数据泛化能力较差。为此，设计一种结合改进 Fisher判别准则与GRⅤ模块的卷积神经网络（ FDCN

发表于 03-17 11:11 •4次下载

基于深度图注意力卷积CNN的三维模型识别方法

针对现有基于深度学习的三维模型识别方法缺乏结合三维模型的上下文细粒度局部特征，可能造成几何形状极其相似，局部细节信息略有不同的类识别混淆的问题，提岀一种基于深度图注意力卷积神经网络的三维模型识别方法

发表于 04-02 13:56 •6次下载

结合注意力机制的改进深度学习光流网络

为提升基于编解码架构的U型网络在深度学习光流估计中的精度，提岀了一种结合注意力机制的改进有监督深度学习光流网络。网络由收缩和扩张两部分组成，收缩部分利用一系列

发表于 04-07 13:56 •4次下载

结合注意力机制的跨域服装检索方法

针对跨域服装检索中服装商品图像拍摄严格约束光照、背景等条件，而用户图像源自复杂多变的日常生活场景，难以避免背景干扰以及视角、姿态引起的服装形变等问题。提出一种结合注意力机制的跨域服装检索方法。利用

发表于 05-12 14:19 •2次下载

如何透彻理解卷积的数据原理与机制

作者以抛球实验为例讲解了许多卷积的数学原理和机制，并通过卷积来表述卷积神经网络。文章附有大量图片解释，帮助大家更容易理解。抛球实验 -- Ball drop experiment 想

发表于 06-16 16:43 •1674次阅读

计算机视觉中的注意力机制

计算机视觉中的注意力机制卷积神经网络中常用的Attention 参考注意力机制简介与分类注意

发表于 05-22 09:46 •0次下载