0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别的技术原理是什么?

九芯电子语音芯片 2022-05-10 16:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自动语音辨认技术(ASR,Automatic Speech Recognition)是一种经过让机器经过辨认和了解的过程,把人类的语音信号转变为相应文本的技术。我们先来看看语音辨认的历史,其实早在计算机创造之前,有关ASR技术的理念就曾经降生了,而早期的声码器就能够被视为是语音辨认及合成的雏形。而1920年代消费的"Radio Rex"玩具狗,可能是早的语音辨认器,当这只狗的名字被召唤的时分,它可以从底座上弹出来。这么看来论辈分它是阿尔法狗的爷爷……但毫无疑问60年代计算机的开展推进了语音辨认技术技术,这其中重要的一个里程碑就是动态规划技术(DP)和线性预测剖析技术(LP),后者又开展出了更成熟的动态时间归正技术(DTW),包括矢量量化(VQ)和隐马尔可夫模型(HMM)理论。但这些还都只是单调又晦涩的算法,换句话说,工程师看到这些玩意也一头雾水,基本没方法疾速在应用到理论里。所以在80年代时,著名的AT&T Bell实验室经过努力,把本来深奥无比的HMM纯数学模型工程化,为应用开发打下了重要的基石。到90年代时,深度神经网络技术的打破性开展,终于把语音辨认技术本来的难关攻破了。所以在我们会发现,从21世纪后语音辨认技术的开展就疾速加快了。其实看起来高大上的语音辨认技术,原理并没有多么复杂。不管是微软家的Cortana、三星家的S-voice苹果家的Siri,还是国内一些独立做语音辨认的比方讯飞、Rokid,在原理在实质上没有几差别:就是语音输入后,停止特征提取,将提取的特征值放进模型库里,再不时地停止锻炼和匹配,终解码得到结果。

假如要细说的话就比拟复杂了,比方模型库中又分为声学模型和言语模型。其中言语模型是依据不同品种的言语,对词串停止统计建模,目前普遍采用的是基于(n-1)阶马尔可夫链统计的n元语法模型。这里细致说下声学建模吧。首先经过前端特征提取取得声学特征,再进一步对声学特征停止统计建模。建模运用到的贝叶斯统计建模框架,也就是大后验概率决策原则。这里算法这种深奥的东西就不说了,除非深度开发,否则直接套用就行了,我本人也是博古通今,还是念书的时分学的。说说提取声学特征该如何完成:当语音输入之后,首先停止模电转换,将模仿信号转变为数字信号,再停止静音切除去掉无关噪音,然后停止分帧。将此时的信号分红一帧一帧之后(每一帧并不是独立存在的而是相互关联的),还要停止一系列的信号处置,包括预加重、加窗之后,再停止FFT变换之后,再经过Mel参数的滤波和取对数、离散余弦变换等一系列算法处置后,能够停止用梅尔频率倒谱系数(MFCC)停止特征提取,得到声学特征。觉得越说越复杂了……后面简单点说吧。前面说了言语模型,而声学模型就是将声学特征统计建模后得到的。得到了模型库之后就能够停止模型锻炼和形式匹配了。所谓模型锻炼就是指依照一定的原则,从大量已知语音形式中获取一个具特征的模型参数。而形式匹配则相反,是依据一定原则,将未知语音形式与模型库中的某一个模型取得佳匹配后的解码过程又能够分红动态解码网络和静态解码网络两种:动态网络会编译一个状态网络并构成搜索空间,把单词转换成一个个的音素后将其依照语序拆分红状态序列,再依据音素上下文分歧性准绳将状态序列停止衔接。而静态网络普通是针对一些特殊词(孤立词)的辨认网络,它的构造就简单多了:先将每条特殊词扩展成HMM状态序列,然后再计算得分,选择得分大的作为辨认输出结果。由于静态网络是依据声学概率计算权重,不需求查询言语模型概率,因而解码速度很快。 这样的一个流程大致上就是语音辨认技术的主要原理。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1825

    浏览量

    116240
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音识别ic芯片分类工作原理,语音识别芯片分类

    语音识别IC芯片,通俗讲就是能让机器“听懂”人话的专用集成电路。与传统的语音播放芯片不同,语音识别芯片最大优势在于具备
    的头像 发表于 04-24 15:14 94次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>ic芯片分类工作原理,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片分类

    普强信息荣登2026语音识别技术公司TOP30榜单

    近日,由 DBC 与 CIW/eNet 研究院联合发布的《2026 语音识别技术公司 TOP30》榜单正式揭晓。
    的头像 发表于 04-14 16:18 325次阅读

    语音识别芯片介绍,语音识别芯片工作原理解析

    在智能交互不断深入的今天,语音识别芯片正成为众多设备实现语音控制与AI对话的关键部件。语音芯片广义上涵盖语音播放、录音及
    的头像 发表于 04-01 16:26 215次阅读

    语音识别芯片的功能与优势有哪些

    在智能语音交互快速发展的今天,语音识别芯片作为核心部件,正逐渐成为各类智能设备不可或缺的组成部分。一款优秀的语音识别芯片,不仅决定了设备的智
    的头像 发表于 03-30 15:31 172次阅读

    瑞芯微(EASY EAI)RV1126B 语音识别

    1.语音识别简介语音识别技术,也被称为自动语音识别
    的头像 发表于 01-21 10:43 1027次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>语音</b><b class='flag-5'>识别</b>

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。
    的头像 发表于 01-14 15:22 410次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>IC分类,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片的工作原理

    华秋输出的GERBER别的软件无法正确识别

    ,卡住了。 这个是华秋识别的,可以看到是正确的。 下面是AD,KICAD、工厂锡膏机识别的,都一样的,统一少了太多东东。
    发表于 12-17 10:46

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音
    的头像 发表于 11-14 17:11 1543次阅读

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是一种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以进行语音控制。它内设先进的数字信号处理模块及
    的头像 发表于 10-31 15:27 674次阅读

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别
    的头像 发表于 10-30 16:32 745次阅读

    语音识别系统的技术核心:从声音到文字的智能转换

          语音识别技术,也称为自动语音识别(ASR),其核心目标是将人类语音信号转换为对应的文
    的头像 发表于 09-05 14:04 1000次阅读

    瑞芯微RK3576语音识别算法

    1.语音识别简介语音识别技术,也被称为自动语音识别
    的头像 发表于 08-15 15:13 2438次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b><b class='flag-5'>识别</b>算法

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,
    发表于 08-09 10:54

    语音识别芯片选型有哪些技术参数要注意

    语音识别芯片的使用场景越来越多涉及的范围也越来越广!那么语音芯片的选型就很重要了,选型不对直接影响产品的使用体验,下面小编从不同的维度来给大家介绍语音
    的头像 发表于 06-23 17:31 1066次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片选型有哪些<b class='flag-5'>技术</b>参数要注意

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    ,提高语音识别的准确率;同时也可连接高质量的扬声器,确保语音合成后的声音清晰、自然。TF卡接口能够存储大量的语音数据、对话模型以及语音机器人
    发表于 05-28 11:36