0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌手机重磅推出了一款端到端、全神经、基于设备的语音识别器

电子工程师 来源:lp 2019-03-28 14:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

识别延迟一直是设备端语音识别技术需要解决的重大问题,谷歌手机今天更新了手机端的语音识别技术——Gboard,重磅推出了一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。通过谷歌最新的(RNN-T)技术训练的模型,该模型精度超过CTC,并且只有80M,可直接在设备上运行。

2012年,语音识别研究获得新突破——深度学习可以提高识别的准确性,最早探索这项技术的产品便是谷歌语音搜索了。这标志这语音识别革命的开始,从深层神经网络(DNNs)到递归神经网络(RNNs),长短期记忆网络(LSTMs),卷积网络(CNNs)等等,新的架构和开发质量每年都在快速提升。在发展过程中,识别延迟仍然是攻关难点。

今天,谷歌官方宣布,推出一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。

在谷歌最近的论文“移动设备的流媒体端到端语音识别”中,提出了一种使用RNN传感器(RNN-T)技术训练的模型,并且可以在手机上实现。这意味着即使你的手机网络延迟,甚至处于离线状态,新的识别器也始终可用。

谷歌论文下载链接:

https://arxiv.org/abs/1811.06621

该模型以单词级别运行,也就是说,当你说话时,它会逐个字符地输出单词,就像是你自己在敲键盘一样。

语音识别的历史

最初,语音识别系统由这样几个部分组成,将音频片段(通常为10毫秒帧)映射到音素的声学模型,将音素连接在一起形成单词的发音模型,语言模型给出相应的短语。这些组件在早期系统中都是相互独立的。

大约在2014年,研究人员开始专注于训练单个神经网络,将输入音频波形直接映射到输出句子。

也就是说,通过给定一系列音频特征,生成一系列单词或字形来建立学习模型,这种seq2seq模型的出现促进了“attention-based ”和“listen-attend-spell” 模型的进展。

这些模型期望在识别准确度上做出突破,但其需要通检查整个输入序列来工作,并且在输入时不允许输出,这就很难实现实时语音转录了。

几乎同一时间,一个被称为CTC的独立技术出现了,成功解决了识别延时的问题,采用CTC技术也就成为迈向RNN-T架构最重要一步。

递归神经网络传感器

RNN-Ts是一种非注意机制的seq2seq模型。与大多数seq2seq模型(通常需要处理整个输入序列(在我们的例子中是波形)以产生输出(句子))不同,RNN-T可以连续处理输入样本和流输出符号,这种属性对于语音识别尤其友好。在实现过程中,输出符号是字母表的字符。RNN-T识别器会逐个输出字符,并在适当的位置输入空格。它通过反馈循环执行此操作,该循环将模型预测的符号反馈到其中,以预测下一个符号,如下图所示。

训练这样一只有效运行的模型已经很困难,并且随着我们开发的进展——进一步将单词错误率降低了5%,模型变得更加计算密集。为了解决这个问题,我们开发了并行实现,使得RNN-T损失功能可以在Google的高性能CloudTPU v2硬件上大批量运行。这在训练中实现了约3倍的加速。

离线识别

在传统的语音识别引擎中,我们上面描述的声学、发音和语言模型会被“组合”成一个大的图搜索算法。当语音波形被呈现给识别器时,“解码器”在给定输入信号的情况下,会在该图中搜索相似度最高的路径,并读出该路径所采用的字序列。

通常,解码器采用基础模型的有限状态传感器(FST)表示。然而,尽管有复杂的解码技术,图搜索算法仍然非常之大,以我们的模型为例,可以达到了2GB。如此大的模型根本无法在移动设备上运行,因此这种方法需要在连线时才能正常工作。

为了提高语音识别的有效性,我们试图通过直接在设备上运行新模型,来避免通信网络的延迟和不可靠性。因此,我们的端到端方法不需要在大型解码器图上进行搜索。

相反,只通过单个神经网络的波束搜索进行。我们训练的RNN-T提供与传统的基于服务器的模型相同的精度,但只有450MB,可以更加智能地使用参数和打包信息。然而,即使在今天的智能手机上,450MB也不小了,并且,通过如此庞大的网络传输信号依然很慢。

进一步的,我们通过使用参数量化和混合内核技术来缩小模型,我们在2016年开发了这一技术并在TensorFlow精简版库上公开提供了模型优化工具包。

模型量化相对于训练的浮点模型提供4倍压缩,在运行时提供4倍加速,使我们的RNN-T比单核上的实时语音运行得更快。压缩后,我们模型的最终大小达到了80MB。

终于,当当当,我们的新型设备端神经网络Gboard语音识别器上线了。最初的版本,我们仅提供英语语言,适配所有Pixel手机。鉴于行业趋势,随着专业硬件和算法改进的融合,我们希望这里介绍的技术可以很快用于更多语言和更广泛的应用领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111947
  • 语音识别
    +关注

    关注

    39

    文章

    1818

    浏览量

    116229
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124610

原文标题:全离线,无延迟!谷歌手机更新语音识别系统,模型大小仅80M

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    为什么段式自动驾驶很难落地?

    ,将感知、预测、规控等任务拆分为相互独立的子系统。然而,随着深度学习技术的突破,的新兴技术架构开始占据讨论的中心。 在这架构中,
    的头像 发表于 03-08 09:44 1789次阅读
    为什么<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶很难落地?

    解锁仿真新可能 :全新 aiSim 6 即将发布

    前言随着自动驾驶从学术探索走向规模化应用,无论是特斯拉FSD神经模拟、Waymo基于DeepMindGenie3的世界模型,还是国内
    的头像 发表于 03-06 17:33 1819次阅读
    解锁<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>仿真新可能 :全新 aiSim 6 即将发布

    自动驾驶为什么会出现黑盒现象?

    在自动驾驶领域,(End-to-End)是指从感知环境的原始数据车辆实际控制指令,全部交给个统
    的头像 发表于 02-20 09:25 9526次阅读
    自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>为什么会出现黑盒现象?

    晶晨携手谷歌,助力侧大模型Gemini的硬件落地

    电子发烧友网报道 在科技飞速发展的当下,侧智能技术正以前所未有的速度渗透各个领域。1月28日,晶晨股份透露,公司与谷歌有着长达十余年的深度合作基础。作为谷歌
    的头像 发表于 01-29 10:44 2370次阅读

    与模块化自动驾驶的数据标注要求有何不同?

    核心的新路径正迅速崛起,试图通过个统神经网络直接完成从传感输入驾驶指令输出的全过程。这种架构上的根本差异,也对数据标注提
    的头像 发表于 01-27 09:48 1104次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>与模块化自动驾驶的数据标注要求有何不同?

    分享一款高端离线语音识别IC AT680系列

    离线语音识别IC的本地处理带来极速响应,识别指令可在毫秒级完成,用户体验流畅无延迟。除此之外,离线语音识别IC还有
    的头像 发表于 12-30 16:19 384次阅读

    智驾模拟软件推荐——为什么选择Keymotek的aiSim?

    随着自动驾驶技术的快速发展,车企和科技公司对于模拟测试平台的需求越来越强。从L2/ADASL4/L5等级的自动驾驶,虚拟模拟已经成为其中的关键环。特别是对于「」智驾(
    的头像 发表于 11-18 11:35 941次阅读

    自动驾驶中“段式”和“二段式”有什么区别?

    [首发于智驾最前沿微信公众号]最近有小伙伴提问,段式和二段式
    的头像 发表于 10-24 09:03 1388次阅读
    自动驾驶中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    自动驾驶中常提的段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,段式
    的头像 发表于 10-18 10:16 1848次阅读

    语音交互数据 精准赋能语音大模型进阶

    模型在多轮对话、噪声环境及语义理解方面表现不佳。 相较于传统数据集仅关注语音-文本的单点转写,语音交互数据集强调在真实多轮对话场景下的
    的头像 发表于 09-11 17:17 834次阅读

    当经典IP撞上AI技术:利尔达助力跃然创新推出全球首AI互动玩具

    //当孩子们手中的奥特曼玩具不仅能发光发声,还能真正智能对话、情感陪伴,传统的玩具行业正经历场前所未有的技术革命……今日,AI玩具领军企业跃然创新(Haivivi)推出全球首搭载
    的头像 发表于 08-26 17:37 2084次阅读
    当经典IP撞上AI技术:利尔达助力跃然创新<b class='flag-5'>推出</b>全球首<b class='flag-5'>款</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>AI互动玩具

    广和通发布自研语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟
    的头像 发表于 08-04 11:43 1747次阅读

    为什么自动驾驶大模型有黑盒特性?

    、激光雷达数据)映射到控制输出(如方向盘转角、加速度、制动等),以深度神经网络为核心,打通了从视觉驾驶行为的完整链条。它也代表了自动驾驶从“规则驱动”向“数据驱动”的跃迁,展现了极高的潜力。当然这种结构也天然地带来了
    的头像 发表于 07-04 16:50 1020次阅读
    为什么自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    为何成为各车企智驾布局的首要选择?

    算法实现输入输出的整体映射,技术通过将原始传感数据直接输入单
    的头像 发表于 06-07 11:52 842次阅读
    为何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>成为各车企智驾布局的首要选择?

    文带你厘清自动驾驶架构差异

    大模型则尝试直接将传感输入映射到车辆控制指令上,实现联合优化。虽同为
    的头像 发表于 05-08 09:07 1186次阅读
    <b class='flag-5'>一</b>文带你厘清自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异