对于谷歌应用传统的自动语音识别（ASR）系统的解析-电子发烧友网

目前，谷歌的各种语音搜索应用还在使用传统的自动语音识别（ASR）系统，它包括一个包括声学模型（AM ）、一个发音模型（PM）和一个语言模型（LM），它们都是彼此独立训练的，而且需要研究人员在不同数据集上进行手动调试。例如，当声学模型采集到一些声波特征，它会参考上下文中的音素，有时甚至是一些无关的音素来生成一系列subword单元预测。之后，发音模型会在手工设计的词典中为预测音素映射序列，最后再由语言模型根据序列概率分配单词。

和联合训练所有组件相比，这种对各模型进行独立训练其实是一种次优的选择，它会使整个过程更复杂。在过去几年中，端对端系统开发越来越受欢迎，它们的思路是把这些独立的组件组合成一个单一系统共同学习，但一个不可忽视的事实是，虽然端对端模型在论文中表现出了一定的希望，但没人真正确定它们比传统的做法效果更优。

为了验证这一点，近日，谷歌推荐了一篇由Google Brain Team发表的新论文：State-of-the-art Speech Recognition With Sequence-to-Sequence Models，介绍了一种新的、在性能上超越传统做法的端对端语音识别模型。论文显示，相较于现在最先进的语音识别工具，谷歌新模型的字错误率（WER）只有5.6%，比前者的6.7％提升了16%。此外，在没有任何预测评分的前提下，用于输出初始字假设的端对端模型在体量上是传统工具的十八分之一，因为它不包含独立的语言模型和发音模型。

这个新模型的系统建立在Listen-Attend-Spell（LAS）端到端体系结构上，该结构由3部分组成，其中Listen组件的编码器和标准声学模型类似，把时频语音信号x作为输入，并用一组神经网络层将输入映射为一个高水平的表征henc。Attend接收前者编码器的输出，并用henc来学习输入x和预测subword单元{yn, … y0}之间的对齐。其中每个subword单元通常是字形或词形。组合，Attend组件将输出传输给Spell组件（解码器），它类似语言模型，能产生一组预测字词的概率分布。

不同于传统的独立训练，LAS的所有组件都在一个单一的端到端神经网络中联合训练，这意味着它更简单方便。此外，由于LAS是一个彻底的神经网络，所以它不需要外部增设手工组件，例如有穷状态转移机、lexicon或TN模型。最后，LAS不需要像传统模型一样用单独系统生成的决策树或time alignment来做Bootstrap，它可以在给定文本转录和相对应音频资料的情况下直接训练。

在论文中，谷歌大脑团队还介绍他们在LAS中引入各类新颖的结构对神经网络做了调整，包括改进传递给解码器的attention vector，以及用更长的subword单元对网络进行训练（如wordpiece）。他们也用了大量优化训练方法，其中就有使用最低错词率进行训练。这些创新都是端到端模型较传统性能提升16%的原因。

这项研究另一个值得兴奋的点是多方言和多语言系统，这可能开启一些潜在应用，由于它是一个经优化的单个神经网络，模型的简单性使它独具吸引力。在LAS中，研究人员可以将所有方言、语言数据整合在一起进行训练，而无需针对各个类别单独设置AM、PM和LM。据论文介绍，经测试，谷歌的这个模型在7种英语方言、9种印度语言上表现良好，并超越了对照组的单独训练模型。

虽然这个数据结果令人兴奋，但这暂时还不是一个真正成熟的工作，因为它还不能实时处理语音，而这是它被用于语音搜索的一个重大前提。此外，这些模型生成的数据和实际数据仍存在不小的差距，它们只学习了22000个音频文本对话，在语料库数据积累上远比不上传统方法。当面对一些罕见的词汇时，比如一些人工设计的专业名词、专有名词，端到端模型还不能正确编写。因此，为了让它们能更实用、适用，谷歌大脑的科学家们未来仍将面临诸多问题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5858

浏览量
103251
语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111833
语音搜索

语音搜索

+关注

关注
0

文章
5

浏览量
7796

原文标题：谷歌大脑发力语音搜索：一个用于语音识别的端到端模型

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

基于pyaudio利用python进行语音生成和语音识别详解

ASR：基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略

发表于 12-27 16:51

手机语音识别应用中DSP该怎么选择？

　　随着DSP技术的进步，计算能力更强、功耗更低和体积更小的DSP已经出现，使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前，基本

发表于 09-02 07:03

自动语音识别的原理是什么？

自动语音识别的原理是什么？如何利用WaveNet实现自动语音识别？

发表于 06-15 09:14

TWEN-ASR ONE 语音识别系列教程（1）——运行第一个语音程序

文章目录前言一、TWEN-ASR开发板介绍二、程序编写、下载、调试三、运行测试四、总结前言语音识别这个词，相信大家都不陌生，现在流行的智能音箱基本都有语音

发表于 06-16 18:10

HarmonyOS开发-语音识别

1. 在使用语音识别API时，将实现ASR的相关的类添加至工程。// 提供ASR引擎执行时所需要传入的参数类import ohos.ai.asr

发表于 03-22 09:54

语音识别技术原理简介

语音识别技术原理简介自动语音识别技术(Auto

发表于 03-06 10:38 •1.1w次阅读

语音识别技术,语音识别技术是什么意思

语音识别技术,语音识别技术是什么意思　语音识别技术，也被称为

发表于 03-06 11:16 •2785次阅读

关于多语言及跨语言的语音识别技术叙述

在大多数传统的自动语音识别（automatic speech recognition，ASR）系统

发表于 02-04 10:19 •6722次阅读

对于语音识别技术你了解多少呢

语音识别技术（Automatic Speech Recognition，ASR）的功能是将人类语音中的词汇内容以按键、二进制编码或字符序列转换为计算机可读的输入信息。

发表于 08-29 10:32 •1167次阅读

语音识别发展渐趋成熟，未来或成生物识别主流方式

语音识别技术，也被称为自动语音识别（ASR）。其目标是将人类

发表于 10-23 23:42 •1212次阅读

ASR语音技术的原理以及未来发展趋势分析

自动语音识别(ASR)是一种将口语转换为文本的过程。该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭

发表于 03-21 10:35 •3772次阅读

LU-ASR01语音识别模块使用说明

模块语音识别LU-ASR01智能控制声控图形编程零基开发板使用说明。

发表于 04-13 09:10 •164次下载

探索自动语音识别技术的独特应用

　　自动语音识别（ ASR ）正在成为日常生活的一部分，从与数字助理交互到听写文本信息。由于以下方面的最新进展， ASR 研究继续取得进展：

发表于 10-11 09:55 •671次阅读

解决自动语音识别部署难题

成功部署自动语音识别（ ASR ）应用程序可能是令人沮丧的体验。例如，考虑到存在许多不同的方言和发音， ASR

发表于 10-11 10:56 •740次阅读

什么是自动语音识别（ASR）？如何使用深度学习和GPU加速ASR

ASR 是自然语言中一项颇具挑战性的任务，它由语音分割、声学建模和语言建模等一系列子任务组成，根据噪声和未分割的输入数据形成预测（标签序列）。

发表于 02-28 15:01 •601次阅读

搜索历史

对于谷歌应用传统的自动语音识别（ASR）系统的解析

评论

基于pyaudio利用python进行语音生成和语音识别详解

手机语音识别应用中DSP该怎么选择？

自动语音识别的原理是什么？

TWEN-ASR ONE 语音识别系列教程（1）——运行第一个语音程序

HarmonyOS开发-语音识别

语音识别技术原理简介

语音识别技术,语音识别技术是什么意思

关于多语言及跨语言的语音识别技术叙述

对于语音识别技术你了解多少呢

语音识别发展渐趋成熟，未来或成生物识别主流方式

ASR语音技术的原理以及未来发展趋势分析

LU-ASR01语音识别模块使用说明

探索自动语音识别技术的独特应用

解决自动语音识别部署难题

什么是自动语音识别（ASR）？如何使用深度学习和GPU加速ASR