0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别技术所面临的问题与解决方案及未来发展

电子设计 来源:郭婷 作者:电子设计 2019-08-12 08:02 次阅读

回顾了语音识别技术的发展历史,描述了语音识别系统的基本原理,介绍了语音识别的几种基本方法,并对语音识别技术面临的问题和发展前景进行了讨论。

1 语音识别技术概述

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

2 语音识别的研究历史及现状

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的 ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。

进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。

我国语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。

3 语音识别系统

语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。

语音识别技术所面临的问题与解决方案及未来发展

(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。

(2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。

(3)训练阶段:用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

(4)识别阶段:将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识(如构词规则,语法规则等)得出最终的识别结果。

4 语音识别的几种基本方法

当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

4.1 动态时间规整(DTW)

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。

4.2 矢量量化(VQ)

矢量量化是一种重要的信号压缩方法,主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每1帧,或有k个参数的每1参数帧,构成k维空间中的1个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。

4.3 隐马尔可夫模型(HMM)

隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型,将其看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

HMM模型可细分为离散隐马尔可夫模型(DHMM)和连续隐马尔可夫模型(CHMM)以及半连续隐马尔可夫模型(SCHMM)等。

4.4 人工神经元网络(ANN)

人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统,它模拟了人类神经元活动的原理,最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此,人们尝试研究基于HMM和ANN的混合模型,把两者的优点有机结合起来,从而提高整个模型的鲁棒性,这也是目前研究的一个热点。

4.5 支持向量机(SVM)

支持向量机是应用统计学习理论的一种新的学习机模型,它采用结构风险最小化原理(SRM),有效克服了传统经验风险最小化方法的缺点,在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。目前,统计学习理论和支持向量机也是国际上机器学习领域的研究热点。

5 语音识别所面临的问题

尽管语音识别取得很大成功,但是距离真正的人机自由交流还有很大的距离。例如,目前计算机还需要对用户做大量训练才能更准确识别,用户的语音识别率也并不是尽如人意。主要难题有以下几个方面:

(1)识别系统的适应性差。主要体现在对环境依赖性强,特别在高噪音环境下语音识别性能还不理想。

(2)语音识别系统从实验室演示系统到商品的转化过程中,还有许多具体问题需要解决。例如,识别速度、拒识等问题,还有连续语音中去除不必要语气词如“呃”、“啊”等语音的技术细节问题。

(3)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需要进一步研究。

面对上面的困难,语音识别技术要做到真正成功,在任何环境中都能人机进行自由地对话,不仅需要语音识别基础理论的突破,更需要大量的实际工作的积累。

6 语音识别技术的前景展望

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品(如声控拨号电话、语音记事本等)的应用,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4575

    浏览量

    98775
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111838
  • 工业控制
    +关注

    关注

    36

    文章

    1277

    浏览量

    85458
收藏 人收藏

    评论

    相关推荐

    连续语音识别网格技术在新闻制播平台的应用

    的素材资产化水平,为视音频媒体的多媒体内容资源检索带来了革命性变化。以中国国际广播电台(China Radio International,CRI)为例,描述了语音识别网格技术所带来的实际应用效果
    发表于 04-23 11:21

    车联网语音识别技术发展与应用

    延伸。 但是对于高速行驶、行为受限的车载应用场景中,社交功能的实现存在很大的挑战。智能设备的交互方式中按键交互和触摸屏交互应用最广也最为成熟,但对于车辆驾驶是“危险的动作”。在此背景下基于语音识别技术
    发表于 07-26 15:40

    语音识别设计要素与电路图集锦

    。  近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。近期,
    发表于 12-20 15:52

    单片机语音识别的原理是什么

    语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别
    发表于 11-17 08:02

    启英泰伦油烟机语音解决方案,强抗噪,识别率高

    学习降噪技术,在噪声70±5dB,人声70±5dB环境下识别率仍能达到90%以上,能很好地满足用户对油烟机语音识别性能的要求。采用深度学习降噪技术
    发表于 03-16 16:12

    方言离线语音控制场景解决方案

      随着科技的不断发展,离线语音识别技术已经变得越来越成熟。在日常生活中,老人或小孩可能会遇到一些困难,如操作复杂的电子设备。为了解决这一问题,离线
    发表于 11-17 17:57

    灵云远场语音识别解决方案

    醒、声源定向等关键技术,在引起产业界广泛关注的同时,16日正式宣布推出面向智能终端的完整灵云远场语音交互解决方案,该套方案完美整合了国内最新远场语音
    发表于 10-13 11:54 0次下载

    语音识别技术:原理、应用与未来

    一、引言 语音识别技术是一种让计算机理解和解析人类语音的方法。这种技术已经存在多年,但随着硬件性能的提升和深度学习算法的
    的头像 发表于 09-19 18:30 1190次阅读

    语音识别技术:进展、挑战和未来

    语音识别技术是一种人机交互的核心技术,它赋予机器“听懂”人类语言的能力。这项技术从早期的符号识别
    的头像 发表于 09-24 09:48 552次阅读

    语音识别技术:现状、挑战与未来发展

    一、引言 语音识别技术是一种将人类语音转化为计算机可读文本的技术,它在许多领域都有广泛的应用,如智能助手、智能家居、医疗诊断等。本文将探讨
    的头像 发表于 10-12 16:57 1228次阅读

    语音识别技术:端到端的挑战与解决方案

    将探讨端到端语音识别技术的挑战与解决方案。 二、端到端语音识别
    的头像 发表于 10-18 17:06 407次阅读

    情感语音识别技术的应用与未来发展

    的应用、未来发展趋势以及面临的挑战。 二、情感语音识别技术的应用 人机交互:情感
    的头像 发表于 11-12 17:30 371次阅读

    情感语音识别技术的挑战与未来发展

    情感语音识别技术作为人工智能领域的重要分支,已经取得了显著的进展。然而,在实际应用中,情感语音识别技术
    的头像 发表于 11-16 16:48 218次阅读

    情感语音识别:现状、挑战与解决方案

    、挑战与解决方案。 二、情感语音识别的现状 技术发展:随着深度学习技术的不断进步,情感语音
    的头像 发表于 11-23 11:30 343次阅读

    浅谈情感语音识别技术发展未来趋势

    一、引言 情感语音识别是一种新兴的人工智能技术,它通过分析人类语音中的情感信息,实现人机之间的情感交互。本文将探讨情感语音
    的头像 发表于 11-30 11:06 379次阅读