0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度端对端语音识别专利揭秘

汽车玩家 来源: 爱集微 作者: 爱集微 2020-01-08 11:17 次阅读

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面。

集微网消息,近年来,语音识别技术得到了迅猛的发展,这得益于人工智能的快速发展,其中最为主要的学业界的各大神经网络的出现,包括基础的序列神经网络模型RNN、LSTM和GRU。语音识别技术也已经进入到各行各业中,如工业、家电、通信汽车电子等。于是,对于语音识别技术的要求也将更加严格了,更倾向于走向准确化和便捷化。

以往,构建语音识别模型主要是使用HMM的序列模型,再使用手工工程化部件来实现整个流水线操作,并且对于不同的语言的语音需要重新构建模型的结果特征。对此,国内语音识别技术第一梯队公司百度便提出了使用端对端的神经网络模型来进行语音识别工作,该专利为“端对端语音识别”(专利号:CN107408111A)。

首先,小编在这先介绍一下神经网络端对端的学习方式。对于语音识别来说,端到端深度学习做的是,训练一个深度神经网络,输入就是一段音频,输出直接是听写文本。其中这里的端表示输入源数据端,另外一端是神经网络处理的结果也就是我们最终需要的目标。这种训练学习的方式能应对多种语言的语音识别的场景构建,因为仅仅是需要改变输入端和输出端,深度神经网络的结构并不需要根据语言的语音不同而改变。

专利中提出的端对端的深度学习模型的架构图如图1所示。该架构包括训练以摄取语谱并生成文本的递归神经网络模型。首先,使用一个或更多个卷积层对语谱进行特征提取,紧接着,使用一个或多个递归层(双向GRU神经网络)对语谱的特征进行时序建模。最后再使用全连接层将递归层获取的语谱信息进行全连接作为CTC(链结式时间分类算法:重点解决输入数据与给定标签的对齐问题)的输入,经过Softmax计算输出各个文本标签的概率。

图1端对端深度学习模型架构图

经过上述端对端深度学习模型构建后,专利中还给出了端对端深度学习模型的训练方法,如图2所示。

百度端对端语音识别专利揭秘

图2 端对端深度学习模型训练方法图

首先需要为模型设置好,输入端和输出端,对于语音识别技术来说,输入端为一时间序列频谱帧的话语X,输出端是与话语X具有相关联的真实标签Y。

构建深度神经网络模型(包括一个或多个卷积层和一个或多个递归层的模型)用来预测一个或多个字符也就是我们输出端的标签。

根据网络模型的输出端的标签的概率分布与真实标签的误差计算损失函数,提供损失函数推出标签预测的误差,再使用梯度反向传播算法更新模型参数。从而达到网络模型学习的目的。

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面,这让整个语音识别技术更加准确。从这两方面来看,端对端的神经网络模型确实是让语音识别技术走向了便捷化,准确化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2145

    浏览量

    88856
  • 语音识别
    +关注

    关注

    37

    文章

    1633

    浏览量

    111798
收藏 人收藏

    评论

    相关推荐

    新品上市,公有云轻安防就选目凌云! #人工智能 #目 #目凌云 #百度智能云

    人工智能百度智能云
    jf_98614062
    发布于 :2024年02月19日 11:39:42

    离线语音识别与在线语音识别有什么不一样?

    离线语音识别与在线语音识别有什么不一样? 离线语音识别和在线
    的头像 发表于 12-12 14:36 535次阅读

    离线语音识别及控制是怎样的技术?

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连
    发表于 11-24 17:41

    离线语音识别和控制的工作原理及应用

    引言   离线语音识别是指在没有网络连接的情况下,通过在本地设备上进行语音信号处理和识别,实现语音命令的转化和执行。随着智能设备的普及,离
    发表于 11-07 18:01

    厨房秤也能语音控制?#语音控制 #语音模块 #语音识别 #离线语音识别

    芯片语音识别
    轻生活科技语音模块
    发布于 :2023年10月19日 16:36:15

    深度学习在语音识别中的应用及挑战

    一、引言 随着深度学习技术的快速发展,其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识别的精度和效率,并且被广泛应用于各种应用场景。本文将探讨深度学习在
    的头像 发表于 10-10 18:14 463次阅读

    语音识别技术的应用及优化

    一、引言 语音识别技术是一种能够让计算机“听懂”人类语言的技术。随着科技的不断发展,语音识别技术的应用范围越来越广泛。本文将探讨语音
    的头像 发表于 10-10 17:26 738次阅读

    鸿蒙升级3.0.0,百度导着航,系统中途会关闭我的定位

    然后百度显示没有定位了,就自动开启智能导航。系统决定我的定位开关设置在哪里,我记得以前开定位是手动开关的。升级后,下拉菜单打开定位,百度导航开着一会系统定位就被关闭了。害得我跑错了好多路。现在就是我的百度导航根本没法用
    发表于 09-03 23:34

    语音识别发展 Python进行语音识别案例

      摘要:随着信息化时代的快速到来以及计算机技术的不断完善发展,语音识别在众多领域都得到了应用,同时语音识别有着广阔的发展前景。当下,在对语音
    发表于 07-19 14:32 4次下载

    串口模块不停的接收指令,接收怎么能准确的识别指令呢?

    串口模块不停的接收指令,接收怎么能准确的识别指令呢
    发表于 06-26 06:54

    2023海外市场好做吗?#物联网 #电子技术 #语音模块 #语音控制 #语音识别

    语音识别
    轻生活科技语音模块
    发布于 :2023年05月30日 14:53:40

    语音识别技术的概念及应用前景

    识别、语义理解等功能直接在终端设备上实现,离线语音开始兴起。因为离线语音具备保护用户隐私,响应速度快,无需网络即可控制等优势,目前已成为很多控制类设备的标准语音控制方式。未来,
    发表于 05-27 09:41

    语音识别技术的分类及识别方法

    语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),(迅 捷ocr文字识别软件)其目标是
    的头像 发表于 04-13 16:03 3757次阅读