谷歌语音匹配功能或将会添加在Android TV中进行应用-电子发烧友网

6月15日消息，谷歌最近正在将其语音匹配功能运用在更多设备上。

谷歌几周前增加了“使用语音匹配功能来确认在Assistant中付款”的选项，根据9to5Google的发现，该语音匹配功能或许会有另一种实现方式——在Android TV上“搜索”应用程序的最新更新的代码中，有几行代码暗示该服务将来可能会出现“语音匹配”。

Android TV或将能使用谷歌语音匹配功能

语音匹配助手可以识别用户的身份，它将会截取用户的语音片段，以形成唯一的语音模型，该模型仅存储在用户的设备上。用户的语音模型可能会临时发送给谷歌，以更好地识别语音。如果用户此后决定不使用“语音匹配”功能，只需将其从“助手设置”中删除即可。该语音匹配功能在许多情况下可能会有所帮助，例如启动与特定语音相关联的Netflix或Stadia账户。

不过，几行代码并不一定意味着谷歌的语音匹配功能将会在Android TV上出现，但这仍然是一个有力的暗示。该公司显然正在尝试统一其平台上的功能，并且向Android TV添加语音匹配支持只是此过程的一个步骤。

传统的说话人分类系统依赖于人声的声学差异识别出对话中不同的说话人。根据男人和女人的音高，仅仅使用简单的声学模型，就可以在一步中相对容易地将他们区分开来。然而，想要区分处音高可能相近的说话者，说话者分类系统就需要使用多步方法了。首先，基于检测到的人声特征，使用一个变化检测算法将对话切分成均匀的片段，我们希望每段仅仅包含一个说话人。接着，使用一个深度学习模型将上述说话人的声音片段映射到一个嵌入向量上。最后，在聚类阶段，会对上述嵌入聚类在不同的簇中，追踪对话中的同一个说话人。

在真实场景下，说话人分类系统与声学语音识别（ASR）系统会并行化运行，这两个系统的输出将会被结合，从而为识别出的单词分配标签。传统的说话人分类系统在声学域中进行推断，然后将说话人标签覆盖在由独立的 ASR 系统生成的单词上。这种方法存在很多不足，阻碍了该领域的发展。

我们需要将对话切分成仅仅包含以为说话人的语音的片段。否则，根据这些片段生成的嵌入就不能准确地表征说话人的声学特征。然而，实际上，这里用到的变化检测算法并不是十全十美的，会导致分割出的片段可能包含多位说话人的语音。聚类阶段要求说话人的数量已知，并且这一阶段对于输入的准确性十分敏感。

系统需要在用于估计人声特征的片段大小和期望的模型准确率之间做出艰难的权衡。片段越长，人声特征的质量就越高，因为此时模型拥有更多关于说话人的信息。这然而，这就带来了将较短的插入语分配给错误的说话人的风险。这将产生非常严重的后果，例如，在处理临床医学或金融领域的对话的环境下，我们需要准确地追踪肯定和否定的陈述。

传统的说话人分类系统并没有一套方便的机制，从而利用在许多自然对话中非藏明显的语言学线索。例如，“你多久服一次药？”在临床对话中最有可能是医护人员说的，而不会是病人说的。类似地，“我们应该什么时候上交作业？”则最有可能是学生说的，而不是老师说的。语言学的线索也标志着说话人有很高的概率发生了改变（例如，在一个问句之后）。

然而，传统的说话人分类系统也有一些性能较好的例子，在谷歌此前发布的一篇博文中就介绍了其中之一。在此工作中，循环神经网络（RNN）的隐藏状态会追踪说话人，克服了聚类阶段的缺点。而本文提出的模型则采用了不容的方法，引入了语言学线索。

我们研发出了一种简单的新型模型，该模型不仅完美地融合了声学和语音线索，而且将说话人分类和语音识别任务融合在了同一个系统中。相较于相同环境下仅仅进行语音识别的系统相比，这个集成模型并没有显著降低语音识别性能。

我们意识到，很关键的一点是：RNN-T 架构非常适用于集成声学和语言学线索。RNN-T 模型由三个不同的网络组成：（1）转录网络（或称编码器），将声帧映射到一个潜在表征上。（2）预测网络，在给定先前的目标标签的情况下，预测下一个目标标签。（3）级联网络，融合上述两个网络的输出，并在该时间步生成这组输出标签的概率分布。

在图形处理单元（GPU）或张量处理单元（TPU）这样的加速器上训练 RNN-T 并不是一件容易的事，这是因为损失函数的计算需要运行“前向推导-反向传播”算法，该过程涉及到所有可能的输入和输出序列的对齐。最近，该问题在一种对 TPU 友好的“前向-后向”算法中得到了解决，它将该问题重新定义为一个矩阵乘法的序列。我们还利用了TensorFlow 平台中的一个高效的 RNN-T 损失的实现，这使得模型开发可以迅速地进行迭代，从而训练了一个非常深的网络。

这个集成模型可以直接像一个语音识别模型一样训练。训练使用的参考译文包含说话人所说的单词，以及紧随其后的指定说话人角色的标签。例如，“作业的截止日期是什么时候？”《学生》，“我希望你们在明天上课之前上交作业”《老师》。当模型根据音频和相应的参考译文样本训练好之后，用户可以输入对话记录，然后得到形式相似的输出结果。我们的分析说明，RNN-T 系统上的改进会影响到所有类型的误差率（包括较快的说话者转换，单词边界的切分，在存在语音覆盖的情况下错误的说话者对齐，以及较差的音频质量）。此外，相较于传统的系统，RNN-T 系统展现出了一致的性能，以每段对话的平均误差作为评价指标时，方差有明显的降低。

传统系统和 RNN-T 系统错误率的对比，由人类标注者进行分类。此外，该集成模型还可以预测其它一些标签，这些标签对于生成对读者更加友好的 ASR 译文是必需的。例如，我们已经可以使用匹配好的训练数据，通过标点符号和大小写标志，提升译文质量。相较于我们之前的模型（单独训练，并作为一个 ASR 的后处理步骤），我们的输出在标点符号和大小写上的误差更小。

责任编辑：gt

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Android

Android

+关注

关注
12

文章
3853

浏览量
125676
谷歌

谷歌

+关注

关注
27

文章
5866

浏览量
103279

谷歌发布支持Google TV 4K的新一代Chromecast电视棒

据消息人士透露，这款新品将搭配全新设计的遥控器。据Mishaal Rahman去年曝光的Android TV 14 Beta代码显示，新款遥控器预计左侧设有四个圆形按键，右侧为一个圆头矩形按键，下方则新增了一颗星形按键。

发表于 04-24 14:57 •123次阅读

谷歌在Android 15中增加存储芯片剩余寿命查检功能

Android Authority日前揭示，Google正计划为Android 15加入一个新功能，用以协助用户了解硬件寿命，特别是内部存储（ROM）芯片。实际上，在去年底发布的Android

发表于 04-19 16:39 •412次阅读

谷歌Android Auto新增P角标，提示用户哪些应用需停车使用

此次AndroidAuto11.4版本更新后，谷歌特别增加了。标志以显著区分“必须在停车状态下使用的应用”，尽管只是微小改进，但对司机而言确属实用性增强。

发表于 03-06 10:29 •205次阅读

谷歌模型怎么PS打开文件格式不变

要将谷歌模型与Photoshop结合使用，并保持文件格式不变，这通常涉及将谷歌模型生成的图像或图形导入到Photoshop中进行进一步编辑或处理。

发表于 02-29 18:09 •450次阅读

谷歌Android 15开发者预览版遇问题，OTA更新暂停

谷歌在Android Developer官网发表声明，因发现“已知问题”，将暂时关闭Android 15 DP1的OTA更新订阅服务。谷歌解释道：“禁用OTA镜像下载是为了深入调查问题

发表于 02-21 14:08 •172次阅读

AD7606模块中的BUSY引脚是否必须接入到主控芯片中进行控制处理呢？

AD7606模块中的BUSY引脚是否必须接入到主控芯片中进行控制处理呢？我使用的串行SPI进行传输，BUSY引脚接入到一个GPIO口，设备树文件中是否需要将该引脚信息添加进去

发表于 12-04 08:12

vlookup函数近似匹配和精确匹配有什么区别

场景。精确匹配：精确匹配是指在VLOOKUP函数中以精确匹配方式查找关键词。它要求在表格中进行查找的目标值必须与源表格中的值完全一样才能返回相应的数值。这就意味着在

发表于 12-01 10:33 •6190次阅读

离线语音识别和控制的工作原理及应用

　　在匹配阶段，将提取的特征向量与预定义的词典中的词进行匹配。最常用的匹配算法是动态时间规整（DTW），它能有效地解决语音信号的时间扭曲问

发表于 11-07 18:01

ARM最大危机来了！谷歌官宣：安卓将全面支持RISC-V

”，“我们很高兴能够在该列表中添加一个新的架构——RISC-V”。这篇文章由负责Android平台编程语言的谷歌员工Lars Bergstrom和负责低级操作系统的Greg Simon撰写，提到了很多

发表于 11-04 00:16 •1728次阅读

基于 TouchGFX 生成的代码中添加触摸功能的方法

基于 TouchGFX 生成的代码中添加触摸功能的方法

发表于 10-27 09:21 •573次阅读

谷歌发布Android14 将源代码推送到AOSP（Android开源项目）

谷歌最近发布了Android 14，用于支持的设备，如Google Pixel手机，并将源代码推送到AOSP（Android开源项目）。对 Android 操作系统第 14 版的大部

发表于 10-12 15:56 •661次阅读

基于Android11系统下i.MX8MQ设备添加光强传感器驱动调试

本文将介绍基于Android11 系统下i.MX8MQ设备添加光强传感器驱动调试介绍

发表于 10-02 16:49 •953次阅读

ST25TV通过带有增强型NDEF的NFC标签来提高用户体验

借助其增强型 NDEF 功能（ANDEF），ST25TV512C 和 ST25TV02KC 标签IC具备了上下文自动NDEF消息传递服务。最终用户只需简单地“点击”标签，便可动态生成相应的响应

发表于 09-13 06:33

ToboT：基于Android Things的语音控制车辆

电子发烧友网站提供《ToboT：基于Android Things的语音控制车辆.zip》资料免费下载

发表于 06-20 14:22 •0次下载

android应用程序在AP模式下与esp8266通信，如何开发arduino代码？

设备：在这个子程序中，我也有一个代理，用户可以通过互联网与设备通信。我使用一些应用程序将数据作为命令传输，这些命令将在 ESP8266-07 中进行翻译。在不久的将来，将会有一个安卓应用程序来处理这个

发表于 05-16 07:45

搜索历史

谷歌语音匹配功能或将会添加在Android TV中进行应用

评论

谷歌发布支持Google TV 4K的新一代Chromecast电视棒

谷歌在Android 15中增加存储芯片剩余寿命查检功能

谷歌Android Auto新增P角标，提示用户哪些应用需停车使用

谷歌模型怎么PS打开文件格式不变

谷歌Android 15开发者预览版遇问题，OTA更新暂停

AD7606模块中的BUSY引脚是否必须接入到主控芯片中进行控制处理呢？

vlookup函数近似匹配和精确匹配有什么区别

离线语音识别和控制的工作原理及应用

ARM最大危机来了！谷歌官宣：安卓将全面支持RISC-V

基于 TouchGFX 生成的代码中添加触摸功能的方法

谷歌发布Android14 将源代码推送到AOSP（Android开源项目）

基于Android11系统下i.MX8MQ设备添加光强传感器驱动调试

ST25TV通过带有增强型NDEF的NFC标签来提高用户体验

ToboT：基于Android Things的语音控制车辆

android应用程序在AP模式下与esp8266通信，如何开发arduino代码？