0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度端对端语音识别专利揭秘

汽车玩家 来源: 爱集微 作者: 爱集微 2020-01-08 11:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面。

集微网消息,近年来,语音识别技术得到了迅猛的发展,这得益于人工智能的快速发展,其中最为主要的学业界的各大神经网络的出现,包括基础的序列神经网络模型RNN、LSTM和GRU。语音识别技术也已经进入到各行各业中,如工业、家电、通信汽车电子等。于是,对于语音识别技术的要求也将更加严格了,更倾向于走向准确化和便捷化。

以往,构建语音识别模型主要是使用HMM的序列模型,再使用手工工程化部件来实现整个流水线操作,并且对于不同的语言的语音需要重新构建模型的结果特征。对此,国内语音识别技术第一梯队公司百度便提出了使用端对端的神经网络模型来进行语音识别工作,该专利为“端对端语音识别”(专利号:CN107408111A)。

首先,小编在这先介绍一下神经网络端对端的学习方式。对于语音识别来说,端到端深度学习做的是,训练一个深度神经网络,输入就是一段音频,输出直接是听写文本。其中这里的端表示输入源数据端,另外一端是神经网络处理的结果也就是我们最终需要的目标。这种训练学习的方式能应对多种语言的语音识别的场景构建,因为仅仅是需要改变输入端和输出端,深度神经网络的结构并不需要根据语言的语音不同而改变。

专利中提出的端对端的深度学习模型的架构图如图1所示。该架构包括训练以摄取语谱并生成文本的递归神经网络模型。首先,使用一个或更多个卷积层对语谱进行特征提取,紧接着,使用一个或多个递归层(双向GRU神经网络)对语谱的特征进行时序建模。最后再使用全连接层将递归层获取的语谱信息进行全连接作为CTC(链结式时间分类算法:重点解决输入数据与给定标签的对齐问题)的输入,经过Softmax计算输出各个文本标签的概率。

图1端对端深度学习模型架构图

经过上述端对端深度学习模型构建后,专利中还给出了端对端深度学习模型的训练方法,如图2所示。

百度端对端语音识别专利揭秘

图2 端对端深度学习模型训练方法图

首先需要为模型设置好,输入端和输出端,对于语音识别技术来说,输入端为一时间序列频谱帧的话语X,输出端是与话语X具有相关联的真实标签Y。

构建深度神经网络模型(包括一个或多个卷积层和一个或多个递归层的模型)用来预测一个或多个字符也就是我们输出端的标签。

根据网络模型的输出端的标签的概率分布与真实标签的误差计算损失函数,提供损失函数推出标签预测的误差,再使用梯度反向传播算法更新模型参数。从而达到网络模型学习的目的。

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面,这让整个语音识别技术更加准确。从这两方面来看,端对端的神经网络模型确实是让语音识别技术走向了便捷化,准确化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2368

    浏览量

    94249
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115569
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音交互革命:百度智能云联合地瓜机器人,重塑AI陪伴体验

    电子发烧友网报道(文/莫婷婷)随着大模型技术的迅猛发展,人机交互正经历从“工具式响应”向“拟人化陪伴”的深刻变革。在这一进程中,语音交互作为最自然的人机沟通方式。   百度智能云泛科技行业解决方案
    发表于 12-01 01:07 1316次阅读
    <b class='flag-5'>端</b>到<b class='flag-5'>端</b><b class='flag-5'>语音</b>交互革命:<b class='flag-5'>百度</b>智能云联合地瓜机器人,重塑AI陪伴体验

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来
    的头像 发表于 11-13 15:47 1099次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿技术、碰撞创新
    的头像 发表于 11-13 11:51 953次阅读

    语音交互数据 精准赋能语音大模型进阶

    语音大模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在
    的头像 发表于 09-11 17:17 576次阅读

    广和通发布自研语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、
    的头像 发表于 08-04 11:43 1378次阅读

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展。
    的头像 发表于 04-30 10:14 1102次阅读

    上汽大众与百度地图达成战略合作

    近日,上海国际车展期间,百度地图与上汽大众举行科技X生态战略合作伙伴签约仪式,双方将基于百度领先的车道级地图产品,为上汽大众千万车主打造更安全、高效的智能化出行体验。上汽大众总经理陶海龙、百度副总裁尚国斌等出席签约仪式。
    的头像 发表于 04-29 17:28 1018次阅读

    百度AI荣获2025爱迪生奖金奖和银奖

    刚刚,百度AI在「2025爱迪生奖」中获得一金一银两项大奖。
    的头像 发表于 04-08 15:43 825次阅读

    百度搜索,能否将DeepSeek变成“内功”?

    实测之后,会发现百度搜索和DeepSeek称得上“王炸组合”
    的头像 发表于 02-21 10:04 2893次阅读
    <b class='flag-5'>百度</b>搜索,能否将DeepSeek变成“内功”?

    百度文心大模型4月1日起全面免费开放

    近日,百度公司正式对外宣布,其备受关注的文心大模型在经过一系列迭代与优化后,将于4月1日零时全面免费开放给所有用户。此次免费开放的覆盖范围广泛,包括所有PC及App用户,让用户能够尽情体验文心系
    的头像 发表于 02-14 09:19 682次阅读

    百度科启动“繁星计划”

    近日,百度科携手中国科协、中国科学院大学共同举办了史记2024·科学科100词发布会,并在此盛会上正式启动了“繁星计划”。这一计划的核心目标在于利用前沿的AI技术,包括数字人、智能体等,以及
    的头像 发表于 12-31 10:26 1160次阅读

    ElfBoard开源项目|百度智能云平台的人脸识别项目

    百度智能云平台的人脸识别项目,旨在利用其强大的人脸识别服务实现自动人脸识别。选择百度智能云的原因是其高效的API接口和稳定的服务质量,能够帮
    的头像 发表于 12-24 10:54 1876次阅读
    ElfBoard开源项目|<b class='flag-5'>百度</b>智能云平台的人脸<b class='flag-5'>识别</b>项目

    百度进军短剧领域,计划全面升级平台

    近日,据天眼查知识产权信息显示,百度在线网络技术(北京)有限公司已经正式申请注册了“百度短剧”商标。该商标的国际分类涵盖了网站服务、科学仪器以及教育娱乐等多个领域,且当前商标状态均为等待实质审查
    的头像 发表于 12-19 10:25 1074次阅读

    百度正式回应进军短剧领域

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新的动作,据天眼查信息显示,该公司已申请注册“百度短剧”商标,涵盖网站服务、科学仪器、教育娱乐等多个国际分类,目前这些商标均处于等待实质审查
    的头像 发表于 12-17 14:19 855次阅读

    阶跃星辰发布国内首个千亿参数语音大模型

    近日,阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数语音大模型。该模型被誉为“国内首个千亿参数
    的头像 发表于 12-17 13:43 1062次阅读