0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度端对端语音识别专利揭秘

汽车玩家 来源: 爱集微 作者: 爱集微 2020-01-08 11:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面。

集微网消息,近年来,语音识别技术得到了迅猛的发展,这得益于人工智能的快速发展,其中最为主要的学业界的各大神经网络的出现,包括基础的序列神经网络模型RNN、LSTM和GRU。语音识别技术也已经进入到各行各业中,如工业、家电、通信汽车电子等。于是,对于语音识别技术的要求也将更加严格了,更倾向于走向准确化和便捷化。

以往,构建语音识别模型主要是使用HMM的序列模型,再使用手工工程化部件来实现整个流水线操作,并且对于不同的语言的语音需要重新构建模型的结果特征。对此,国内语音识别技术第一梯队公司百度便提出了使用端对端的神经网络模型来进行语音识别工作,该专利为“端对端语音识别”(专利号:CN107408111A)。

首先,小编在这先介绍一下神经网络端对端的学习方式。对于语音识别来说,端到端深度学习做的是,训练一个深度神经网络,输入就是一段音频,输出直接是听写文本。其中这里的端表示输入源数据端,另外一端是神经网络处理的结果也就是我们最终需要的目标。这种训练学习的方式能应对多种语言的语音识别的场景构建,因为仅仅是需要改变输入端和输出端,深度神经网络的结构并不需要根据语言的语音不同而改变。

专利中提出的端对端的深度学习模型的架构图如图1所示。该架构包括训练以摄取语谱并生成文本的递归神经网络模型。首先,使用一个或更多个卷积层对语谱进行特征提取,紧接着,使用一个或多个递归层(双向GRU神经网络)对语谱的特征进行时序建模。最后再使用全连接层将递归层获取的语谱信息进行全连接作为CTC(链结式时间分类算法:重点解决输入数据与给定标签的对齐问题)的输入,经过Softmax计算输出各个文本标签的概率。

图1端对端深度学习模型架构图

经过上述端对端深度学习模型构建后,专利中还给出了端对端深度学习模型的训练方法,如图2所示。

百度端对端语音识别专利揭秘

图2 端对端深度学习模型训练方法图

首先需要为模型设置好,输入端和输出端,对于语音识别技术来说,输入端为一时间序列频谱帧的话语X,输出端是与话语X具有相关联的真实标签Y。

构建深度神经网络模型(包括一个或多个卷积层和一个或多个递归层的模型)用来预测一个或多个字符也就是我们输出端的标签。

根据网络模型的输出端的标签的概率分布与真实标签的误差计算损失函数,提供损失函数推出标签预测的误差,再使用梯度反向传播算法更新模型参数。从而达到网络模型学习的目的。

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面,这让整个语音识别技术更加准确。从这两方面来看,端对端的神经网络模型确实是让语音识别技术走向了便捷化,准确化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2388

    浏览量

    95178
  • 语音识别
    +关注

    关注

    39

    文章

    1818

    浏览量

    116229
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度地图与NIMO眼镜达成深度合作

    近日,百度地图与NIMO眼镜达成深度合作,将百度地图全栈导航能力以轻量化、低功耗、极简交互的方式落地智能眼镜场景,为骑行、步行、日常通勤用户提供抬头即见、安全随行的新一代导航体验。
    的头像 发表于 04-09 10:00 260次阅读

    语音识别芯片介绍,语音识别芯片工作原理解析

    在智能交互不断深入的今天,语音识别芯片正成为众多设备实现语音控制与AI对话的关键部件。语音芯片广义上涵盖语音播放、录音及
    的头像 发表于 04-01 16:26 195次阅读

    百度智能云推出全球首款手机龙虾应用

    昨天,百度智能云发布了一款即开即用的零部署服务DuClaw。目前,DuClaw网页服务已上线,能够实现零门槛“养虾”。DuClaw来了!零门槛开启自由“养虾”
    的头像 发表于 03-13 11:38 564次阅读

    百度文心大模型5.0正式版上线

    今天,在百度文心Moment大会现场,文心大模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1461次阅读

    百度地图开放平台与400万开发者共赴智能时空新未来

    二十年星辰大海,十五载开放引航。2025年,百度地图迎来服务用户的二十周年,其开放平台亦走过了与开发者并肩同行的十五个春秋。在近期举行的“2025百度地图开发者盛典”上,百度地图开放平台回顾了从提供基础地图API,演进为以AI为
    的头像 发表于 01-23 09:03 887次阅读
    <b class='flag-5'>百度</b>地图开放平台与400万开发者共赴智能时空新未来

    MediaTek携手合作伙伴推动语音识别落地

    在《王者荣耀》等多人竞技游戏中,语音沟通是团队配合的核心。但网络不稳定、噪声环境等问题会影响识别准确
    的头像 发表于 12-28 15:30 1332次阅读

    百度健康升级发布文心健康管家

    面临医疗资源分布不均、就诊流程繁琐、就医信息不均等难题,“想让每个家庭都拥有专属医生”成为百度健康的愿景。
    的头像 发表于 12-23 15:01 881次阅读

    语音交互革命:百度智能云联合地瓜机器人,重塑AI陪伴体验

    电子发烧友网报道(文/莫婷婷)随着大模型技术的迅猛发展,人机交互正经历从“工具式响应”向“拟人化陪伴”的深刻变革。在这一进程中,语音交互作为最自然的人机沟通方式。   百度智能云泛科技行业解决方案
    发表于 12-01 01:07 1835次阅读
    <b class='flag-5'>端</b>到<b class='flag-5'>端</b><b class='flag-5'>语音</b>交互革命:<b class='flag-5'>百度</b>智能云联合地瓜机器人,重塑AI陪伴体验

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来
    的头像 发表于 11-13 15:47 1883次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿技术、碰撞创新
    的头像 发表于 11-13 11:51 1451次阅读

    语音交互数据 精准赋能语音大模型进阶

    语音大模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在
    的头像 发表于 09-11 17:17 834次阅读

    广和通发布自研语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、
    的头像 发表于 08-04 11:43 1747次阅读

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台。百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者深度开放四大核心能力和五大场景解决方案。
    的头像 发表于 05-26 11:26 1985次阅读

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展。
    的头像 发表于 04-30 10:14 1466次阅读

    上汽大众与百度地图达成战略合作

    近日,上海国际车展期间,百度地图与上汽大众举行科技X生态战略合作伙伴签约仪式,双方将基于百度领先的车道级地图产品,为上汽大众千万车主打造更安全、高效的智能化出行体验。上汽大众总经理陶海龙、百度副总裁尚国斌等出席签约仪式。
    的头像 发表于 04-29 17:28 1373次阅读