0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌语音匹配功能或将会添加在Android TV中进行应用

牵手一起梦 来源:雷锋网 作者:佚名 2020-06-16 14:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

6月15日消息,谷歌最近正在将其语音匹配功能运用在更多设备上。

谷歌几周前增加了“使用语音匹配功能来确认在Assistant中付款”的选项,根据9to5Google的发现,该语音匹配功能或许会有另一种实现方式——在Android TV上“搜索”应用程序的最新更新的代码中,有几行代码暗示该服务将来可能会出现“语音匹配”。

Android TV或将能使用谷歌语音匹配功能

语音匹配助手可以识别用户的身份,它将会截取用户的语音片段,以形成唯一的语音模型,该模型仅存储在用户的设备上。用户的语音模型可能会临时发送给谷歌,以更好地识别语音。如果用户此后决定不使用“语音匹配”功能,只需将其从“助手设置”中删除即可。该语音匹配功能在许多情况下可能会有所帮助,例如启动与特定语音相关联的Netflix或Stadia账户。

不过,几行代码并不一定意味着谷歌的语音匹配功能将会在Android TV上出现,但这仍然是一个有力的暗示。该公司显然正在尝试统一其平台上的功能,并且向Android TV添加语音匹配支持只是此过程的一个步骤。

传统的说话人分类系统依赖于人声的声学差异识别出对话中不同的说话人。根据男人和女人的音高,仅仅使用简单的声学模型,就可以在一步中相对容易地将他们区分开来。然而,想要区分处音高可能相近的说话者,说话者分类系统就需要使用多步方法了。首先,基于检测到的人声特征,使用一个变化检测算法将对话切分成均匀的片段,我们希望每段仅仅包含一个说话人。接着,使用一个深度学习模型将上述说话人的声音片段映射到一个嵌入向量上。最后,在聚类阶段,会对上述嵌入聚类在不同的簇中,追踪对话中的同一个说话人。

在真实场景下,说话人分类系统与声学语音识别(ASR)系统会并行化运行,这两个系统的输出将会被结合,从而为识别出的单词分配标签。传统的说话人分类系统在声学域中进行推断,然后将说话人标签覆盖在由独立的 ASR 系统生成的单词上。这种方法存在很多不足,阻碍了该领域的发展。

我们需要将对话切分成仅仅包含以为说话人的语音的片段。否则,根据这些片段生成的嵌入就不能准确地表征说话人的声学特征。然而,实际上,这里用到的变化检测算法并不是十全十美的,会导致分割出的片段可能包含多位说话人的语音。聚类阶段要求说话人的数量已知,并且这一阶段对于输入的准确性十分敏感。

系统需要在用于估计人声特征的片段大小和期望的模型准确率之间做出艰难的权衡。片段越长,人声特征的质量就越高,因为此时模型拥有更多关于说话人的信息。这然而,这就带来了将较短的插入语分配给错误的说话人的风险。这将产生非常严重的后果,例如,在处理临床医学或金融领域的对话的环境下,我们需要准确地追踪肯定和否定的陈述。

传统的说话人分类系统并没有一套方便的机制,从而利用在许多自然对话中非藏明显的语言学线索。例如,“你多久服一次药?”在临床对话中最有可能是医护人员说的,而不会是病人说的。类似地,“我们应该什么时候上交作业?”则最有可能是学生说的,而不是老师说的。语言学的线索也标志着说话人有很高的概率发生了改变(例如,在一个问句之后)。

然而,传统的说话人分类系统也有一些性能较好的例子,在谷歌此前发布的一篇博文中就介绍了其中之一。在此工作中,循环神经网络(RNN)的隐藏状态会追踪说话人,克服了聚类阶段的缺点。而本文提出的模型则采用了不容的方法,引入了语言学线索。

我们研发出了一种简单的新型模型,该模型不仅完美地融合了声学和语音线索,而且将说话人分类和语音识别任务融合在了同一个系统中。相较于相同环境下仅仅进行语音识别的系统相比,这个集成模型并没有显著降低语音识别性能。

我们意识到,很关键的一点是:RNN-T 架构非常适用于集成声学和语言学线索。RNN-T 模型由三个不同的网络组成:(1)转录网络(或称编码器),将声帧映射到一个潜在表征上。(2)预测网络,在给定先前的目标标签的情况下,预测下一个目标标签。(3)级联网络,融合上述两个网络的输出,并在该时间步生成这组输出标签的概率分布。

在图形处理单元(GPU)或张量处理单元(TPU)这样的加速器上训练 RNN-T 并不是一件容易的事,这是因为损失函数的计算需要运行“前向推导-反向传播”算法,该过程涉及到所有可能的输入和输出序列的对齐。最近,该问题在一种对 TPU 友好的“前向-后向”算法中得到了解决,它将该问题重新定义为一个矩阵乘法的序列。我们还利用了TensorFlow 平台中的一个高效的 RNN-T 损失的实现,这使得模型开发可以迅速地进行迭代,从而训练了一个非常深的网络。

这个集成模型可以直接像一个语音识别模型一样训练。训练使用的参考译文包含说话人所说的单词,以及紧随其后的指定说话人角色的标签。例如,“作业的截止日期是什么时候?”《学生》,“我希望你们在明天上课之前上交作业”《老师》。当模型根据音频和相应的参考译文样本训练好之后,用户可以输入对话记录,然后得到形式相似的输出结果。我们的分析说明,RNN-T 系统上的改进会影响到所有类型的误差率(包括较快的说话者转换,单词边界的切分,在存在语音覆盖的情况下错误的说话者对齐,以及较差的音频质量)。此外,相较于传统的系统,RNN-T 系统展现出了一致的性能,以每段对话的平均误差作为评价指标时,方差有明显的降低。

传统系统和 RNN-T 系统错误率的对比,由人类标注者进行分类。此外,该集成模型还可以预测其它一些标签,这些标签对于生成对读者更加友好的 ASR 译文是必需的。例如,我们已经可以使用匹配好的训练数据,通过标点符号和大小写标志,提升译文质量。相较于我们之前的模型(单独训练,并作为一个 ASR 的后处理步骤),我们的输出在标点符号和大小写上的误差更小。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Android
    +关注

    关注

    12

    文章

    3985

    浏览量

    133058
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110255
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PWM周期和占空比是否可以在程序中进行调节?

    PWM周期和占空比是否可以在程序中进行调节
    发表于 11-20 07:50

    谷歌查找我的设备配件(Google Find My Device Accessory)详解和应用

    设备(Owner device)通常是指具有Android系统的设备如手机等,且和附件做过关联(配置),是配件的所有者,Google服务器和其它支持Google FMDN功能的手机平板等An
    发表于 08-31 21:10

    谷歌全新Android助力提高开发效率

    随着 Android 的更新,加上 AI 的接入与赋能,让 Android 开发新范式正在加速成型。
    的头像 发表于 08-29 09:22 619次阅读

    A-59P 多功能语音处理模组:性能卓越,便捷易用​

    ,都能清晰拾取人声,让语音通信摆脱噪音干扰,如同在安静的环境中进行交流。 ​ 2. 高效消回音,全双工流畅沟通​ 在全双工通话场景中,回音问题一直是困扰用户的一大难题。A-59P 配备了强大的 AEC
    发表于 07-26 10:53

    双工不匹配如何修复它

    修复双工不匹配问题可通过以下步骤进行: 检查并统一双工设置:使用show interfaces(Cisco设备)display interface brief(华为设备)等命令查看接口的双工状态
    的头像 发表于 07-02 09:46 405次阅读

    dhkey chcks不匹配怎么解决?

    我们正在使用 Android9 操作系统测试 BLE 功能。 在测试过程中,我们发现 BLE 连接失败,错误显示\" bt_smp[i]: dhkey chcks do nomatch
    发表于 07-01 06:36

    ArkUI-X添加到现有Android项目中

    Android应用工程的集成方式 使用ACE Tools和DevEco Studio集成ArkUI-X SDK进行Android AAR开发 可以通过通过ACE ToolsDevEc
    发表于 06-04 22:35

    ArkUI-X添加到现有Android项目中

    Android应用工程的集成方式 使用ACE Tools和DevEco Studio集成ArkUI-X SDK进行Android AAR开发 可以通过通过ACE ToolsDevEc
    发表于 05-28 22:44

    谷歌I/O 2025大会前透露:Android 16接入Gemini,智能手机、XR设备升级

    电子发烧友网报道(文/莫婷婷)2025 Google Android I/O将5 月 20 日至 21 日举行,在这场活动之前,谷歌召开了“The Android Show: I/O Edition
    的头像 发表于 05-18 00:03 7201次阅读
    <b class='flag-5'>谷歌</b>I/O 2025大会前透露:<b class='flag-5'>Android</b> 16接入Gemini,智能手机、XR设备升级

    【米尔-RK3562开发板试用评测】RK3562J开发板-语音识别功能测试(一)

    非常感谢电子发烧友论坛,以及米尔电子,最近拿到了电子发烧友试用的米尔电子开发板。正好手边可能有一项语音识别的功能要做。 硬件环境​​: 使用电子发烧友论坛提供的米尔电子开发板 音频输入限制:板载耳机
    发表于 05-17 21:29

    电话语音配线架怎么接线

    、压线钳、打线刀、剪刀、扎带、螺丝刀、电钻等。 材料:电话配线架(如110语音配线架)、电话线缆(大对数电缆四芯语音线)、电话模块、跳线等。 线缆与配线架匹配 确认线缆规格(如25对
    的头像 发表于 04-10 10:36 2052次阅读

    谷歌“减法”新动作:砍掉耳机按键唤醒朗读功能

    电子发烧友网报道(文/莫婷婷)近期,谷歌宣布将对耳机上的 Google Assistant语音助手功能进行调整,取消通过触控唤醒助理“自动朗读未读通知”的功能
    的头像 发表于 02-22 22:56 2885次阅读
    <b class='flag-5'>谷歌</b>“减法”新动作:砍掉耳机按键唤醒朗读<b class='flag-5'>功能</b>

    Android16 Beta 1来袭,谷歌Pixel 6用户抢先体验

    近日,Android操作系统迎来重大更新,Android 16 Beta 1正式发布,版本号为BP22.250103.008。 目前,谷歌Pixel 6及更新机型的用户已可检查OTA更新。 根据
    的头像 发表于 01-24 10:36 1445次阅读

    谷歌推出Android XR SDK开发者预览版

    的眼镜) 而打造。您将拥有无限的机会使用熟悉的 Android API、工具和专为 XR 打造的开放标准,创造并开发融合数字世界和物理世界的体验。这意味着: 如果您为 Android 进行开发,那么就已经踏入了 XR 开发的大门
    的头像 发表于 01-10 10:13 990次阅读

    谷歌与三星联合发布Android XR操作系统

    谷歌与三星近日携手宣布,共同推出了全新的操作系统——Android XR。这一系统专为头戴式装置和智能眼镜等下一代计算设备提供技术支持,旨在为用户带来更为丰富、沉浸式的体验。 Android XR
    的头像 发表于 12-16 10:08 811次阅读