首页: 电子电路图,电子技术资料网站首页

电子资料下载: 电子资料下载频道 -- 为电子工程师提供激发创新灵感的新方案、新的参考设计、新的设计构想等可下载的电子资料！

电子技术应用: 电子技术应用频道 -- 为电子工程师提供电子产品设计所需的技术分析、设计技巧、设计工具、测试工具等技术文章！

电子元器件: 专业的电子元器件平台 -- 及时发布大量最新IC、分立器件、模组等电子元器件产品信息！

电子电路图: 电路图频道 -- 提供电子电路图,原理图,汽车电路图,手机电路图,功放电路图,电源电路图等电路图纸

电子技术论坛: 构建电子工程师交流的平台 -- 在交流中进一步学习设计技巧、规划技术人生、提升自我价值！

源码下载: 源码下载频道; uCOS编程 C/C++语言编程 Symbian编程 Linux/uClinux/Unix编程 Windows编程 matlab源程序 php源码下载 asp.net源码下载 java源码下载汇编编程驱动程序单片机编程数值算法/人工智能

您的位置：电子发烧友网>源码下载>数值算法/人工智能>

语音识别系统最新实践

大小：0.5 MB 人气： 2017-09-30 需要积分：1

推荐 + 挑错 + 收藏(0) + 用户评论（0）

前往下载地址

分享到:

标签：语音识别系统(10380)科大讯飞(59934)

　　语音作为最自然便捷的交流方式，一直是人机通信和交互最重要的研究领域之一。自动语音识别（Automatic Speech Recognition，ASR）是实现人机交互尤为关键的技术，其所要解决的问题是让计算机能够“听懂”人类的语音，将语音中传化为文本。自动语音识别技术经过几十年的发展已经取得了显著的成效。近年来，越来越多的语音识别智能软件和应用走人了大家的日常生活，苹果的Siri、微软的小娜、科大讯飞的语音输入法和灵犀等都是其中的典型代表。本文将以科大讯飞的视角介绍语音识别的发展历程和最新技术进展。

　　我们首先简要回顾语音识别的发展历史，然后介绍目前主流的基于深度神经网路的语音识别系统，最后重点介绍科大讯飞语音识别系统的最新进展。

　　语音识别关键突破回顾

　　语音识别的研究起源于上世纪50年代，当时的主要研究者是贝尔实验室。早期的语音识别系统是简单的孤立词识别系统，例如1952年贝尔实验室实现了十个英文数字识别系统。从上世纪60年代开始，CMU的Reddy开始进行连续语音识别的开创性工作。但是这期间语音识别的技术进展非常缓慢，以至于1969年贝尔实验室的约翰·皮尔斯（John Pierce）在一封公开信中将语音识别比作“将水转化为汽油、从海里提取金子、治疗癌症”等几乎不可能实现的事情。上世纪70年代，计算机性能的大幅度提升，以及模式识别基础研究的发展，例如码本生成算法（LBG）和线性预测编码（LPC）的出现，促进了语音识别的发展。这个时期美国国防部高级研究计划署（DARPA）介入语音领域，设立了语音理解研究计划，研究计划包括BBN、CMU、SRI、IBM等众多顶尖的研究机构。IBM、贝尔实验室相继推出了实时的PC端孤立词识别系统。上世纪80年代是语音识别快速发展的时期，其中两个关键技术是隐马尔科夫模型（HMM）的理论和应用趋于完善以及NGram语言模型的应用。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。例如，李开复研发的SPHINX系统，是基于统计学原理开发的第一个“非特定人连续语音识别系统”。其核心框架就是用隐马尔科模型对语音的时序进行建模，而用高斯混合模型（GMM）对语音的观察概率进行建模。基于GMM-HMM的语音识别框架在此后很长一段时间内一直是语音识别系统的主导框架。上世纪90年代是语音识别基本成熟的时期，主要进展是语音识别声学模型的区分性训练准则和模型自适应方法的提出。这个时期剑桥语音识别组推出的HTK工具包对于促进语音识别的发展起到了很大的推动作用。此后语音识别发展很缓慢，主流的框架GMM-HMM趋于稳定，但是识别效果离实用化还相差甚远，语音识别的研究陷入了瓶颈。

　　关键突破起始于2006年。这一年辛顿（Hinton）提出深度置信网络（DBN），促使了深度神经网络（Deep Neural Network，DNN）研究的复苏，掀起了深度学习的热潮。2009年，辛顿以及他的学生默罕默德（D. Mohamed）将深度神经网络应用于语音的声学建模，在小词汇量连续语音识别数据库TIMIT上获得成功。2011年，微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章，在大词汇量连续语音识别任务上获得突破。从此基于GMM-HMM的语音识别框架被打破，大量研究人员开始转向基于DNN-HMM的语音识别系统的研究。

　　基于深度神经网络的语音识别系统

　　基于深度神经网络的语音识别系统主要采用如图1所示的框架。相比传统的基于GMM-HMM的语音识别系统，其最大的改变是采用深度神经网络替换GMM模型对语音的观察概率进行建模。最初主流的深度神经网络是最简单的前馈型深度神经网络（Feedforward Deep Neural Network，FDNN）。DNN相比GMM的优势在于：1. 使用DNN估计HMM的状态的后验概率分布不需要对语音数据分布进行假设；2. DNN的输入特征可以是多种特征的融合，包括离散或者连续的；3. DNN可以利用相邻的语音帧所包含的结构信息。

　　语音识别系统最新实践

　　图1 基于深度神经网络的语音识别系统框架

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

下载地址

不能下载？请通知我们

语音识别系统最新实践下载

普通下载普通下载

用户评论

发表评论即可获得积分！ 详见积分规则

发表评论

用户评论

评价:好评中评差评

发表评论，获取积分！请遵守相关规定！

注册会员

游客:

语音识别系统最新实践

下载地址

语音识别系统最新实践下载

相关电子资料下载

用户评论

发表评论

分享你我的电子世界

实用电子设计资料下载

源码下载排行

热门词