谷歌的研究人员提出了一种监督学习方法来实现语音特征的聚类-电子发烧友网

用过智能音箱的小伙伴可能会有过这样的经历，当你和朋友同时对它讲话时，它有时候同时面对两位小主的临幸会感觉很凌乱，不知道该听谁的，分不清到底是谁在向它发出指令谁才是它的主人。

其实这涉及到语音识别领域一个重要的问题Speaker diarization(即说话人分类技术)，这一技术的目的在于从音频流中分离出不同人说话的语音，并将分离出的语音归并到所属的说话人上，其核心问题在于解决“who speak when”。这一技术对于理解对话、视频标注以及移动端语音识别具有重要的意义。

对于Speaker diarization来说，其处理过程一般分为四个步骤：

语音分割：将不同说话人的语音片段分割出来，在音频流中标记分割点；

音频特征抽取：利用诸如MFCC、说话人因子或i-vector等来从片段中抽取特征；

聚类：当检测到多个说话人并获取了对应语音片段的特征后需要利用聚类方法将相应的片段归类到对应的说话人中去。

重分割：优化聚类结果来提升说话人分类的精度。

近年来，基于神经网络的音频处理系统促进了这一领域的快速发展，但要训练一个在任意情况下能够准确快速识别分类说话人的模型并不是一件简单的事情。与标准的监督学习分类任务不同的是，说话人分类模型需要对新出现的说话人有着足够鲁棒的识别和分类性能，而在训练的过程中却无法囊括现实中各式各样的说话人。这在很大程度上限制了语音识别系统特别是在线系统的实时能力。

虽然已有很多工作在这个领域进行了努力，但目前整个Speaker diarization系统中依然存在着非监督学习的部分——聚类过程。聚类的表现对于整个系统有着重要的作用，但目前大多数算法都是无监督的方法，这使得我们无法通过语音样本的监督学习来改进这些算法。此外典型的聚类方法如k均值和谱聚类等非监督算法对于在线说话人识别时，应对不断输入的音频流很难有效聚类。

为了进一步提高模型的表现，谷歌的研究人员提出了一种监督学习方法来实现语音特征的聚类。在最近发表的论文“Fully Supervised Speaker Diarization”中，研究人员提出了一个名为unbounded interleaved-state recurrentneural network (UIS-RNN)的聚类算法来提高了模型的性能。在语音识别数据集上达到了7.6%的错误率，超过了其先前基于聚类方法（8.8%）和深度网络嵌入方法（9.9%）。

这一方法与通常聚类方法的主要区别在于研究人员使用了参数共享的循环神经网络为所有的说话人（embeddings）建模，并通过循环神经网络的不同状态来识别说话人，这就能将不同的语音片段与不同的人对应起来。

具体来看，每一个人的语音都可以看做权值共享的RNN的一个实例，由于生成的实例不受限所以可以适应多个说话人的场景。将RNN在不同输入下的状态对应到不同的说话人即可实现通过监督学习来实现语音片段的归并。通过完整的监督模型，可以得到语音中说话人的数量，并可以通过RNN携带时变的信息，这将会对在线系统的性能带来质的提升。

这一论文的主要贡献如下：

提出了无界间隔状态(. Unbounded interleaved-state )RNN，一个可以通过监督学习训练的对于时变数据分割和聚类的算法；

全监督的说话人分类系统；

数据集上误差提升到7.6%；

提高线上任务表现。

那么它具体是怎么工作的呢？假设我们有四个人同时对着这个AI说话(这是个例子，模型其实可以处理更多的人)。那么每个人将会得到一个自己的RNN实例，拥有相同的初始状态和参数。随着语音片段的特征不断被送入到网络中而更新状态。

例如下面的蓝色人在实例化后，他将一直保持RNN的状态，直到黄色的语音片段进入并开启新的RNN实例，这时在最顶部输出的状态就成为了黄色了。但后面如果蓝色继续说话，蓝色RNN状态也会相应的重新转移到蓝色上。下图最后的虚线显示了y7各种不同的状态。对于新出现的绿色说话人来说，将重新开启一个新的实例。

利用RNN对说话人语音进行表示，将能够利用RNN参数从不同的说话人和言语中学习到高层级的知识，这对于标记丰富的数据集来说将会得到更对更好的结果。利用带有时间戳的说话人标签数据，可以通过随机梯度下降法来训练模型，可用于新的说话人，并提高在线任务的表现。

在未来研究人员将会改进这一模型用于离线解码上下文信息的整合；同时还希望直接利用声学特征代替d-vectors作为音频特征，这样就能实现完整的端到端模型了。

其实，谷歌先前的工作为这一方法打下了坚实的基础。去年的论文“SPEAKER DIARIZATION WITH LSTM”中就提出了利用LSTM与d-vertor结合来提升模型的表现。

但这篇论文中使用的聚类算法依然是无监督的方法，这也为这次新工作的提出奠定了基础。

除此之外，研究人员们还尝试了利用视觉辅助的方法来识别谁在说话，并在论文“Looking to Listen at the Cocktail Party”中提出了利用视觉信息识别混合场景下说话人的方法：

相信不久后，家里的各种小可爱智能音响将可以清楚的分辨出谁是爸爸谁是妈妈，谁才是它的主人。对于嘈杂多人环境下语音指令的准确性和对话系统的交互表现有着重要的作用。同时对于音视频分析和音频高维语义信息的抽取学习将会有很大的促进作用。如果可以准确识别对话中每个人的对话、时长、分布，甚至可以分析出每个用户的语言习惯、说话节奏等高级特征，与其他技术结合将能够在行为识别、情感分析甚至语音加密等方面带来重要的影响。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5851

浏览量
103246
神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98714
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24347

原文标题：听不清谁在讲话？谷歌新模型助力分辨声音的主人

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

：与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有聚类等。•半监督学习：介于监督学习

发表于 06-23 13:51

深非监督学习-Hierarchical clustering 层次聚类python的实现

【深度学习基础-17】非监督学习-Hierarchical clustering 层次聚类-python实现

发表于 04-28 10:07

一种基于聚类和竞争克隆机制的多智能体免疫算法

包含分布式电源的配电网无功优化matlab源代码，代码按照高水平文章复现，保证正确，可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力，提出了一种基于聚类和竞争克隆机制的多智能

发表于 12-29 06:50

采用无监督学习的方法，用深度摘要网络总结视频

中科院和英国伦敦大学玛丽女王学院的研究人员就生成视频摘要提出了一种新方法，采用无监督学习的方法，

发表于 01-15 10:49 •6786次阅读

基于半监督学习框架的识别算法

问题，对半监督学习中的协同训练算法进行改进，提出了一种基于多学习器协同训练模型的人体行为识别方法．这是一

发表于 01-21 10:41 •1次下载

深度解析机器学习三类学习方法

在机器学习(Machine learning)领域。主要有三类不同的学习方法：监督学习(Supervised learning)、非监督学习(Unsupervised learning

发表于 05-07 09:09 •1.4w次阅读

利用机器学习来捕捉内部漏洞的工具运用无监督学习方法可发现入侵者

Darktrace新网络安全公司与剑桥大学的数学家合作，开发了一种利用机器学习来捕捉内部漏洞的工具。它运用无监督学习方法，查看大量未标记的数据，并找到不遵循典型模式的碎片。这些原始数据汇集到60多种不同的无

发表于 11-22 16:01 •1120次阅读

研究人员实现无创早期肺癌筛查，以机器学习为基础

根据 Nature 杂志发表的一项研究，斯坦福大学研究人员开发了一种机器学习方法，能够实现早期肺癌患者的鉴别筛查。

发表于 03-27 16:06 •689次阅读

最基础的半监督学习

导读最基础的半监督学习的概念，给大家一个感性的认识。半监督学习(SSL)是一种机器学习技术，其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中

发表于 11-02 16:08 •2382次阅读

半监督学习最基础的3个概念

导读今天给大家介绍半监督学习中的3个最基础的概念：一致性正则化，熵最小化和伪标签，并介绍了两个经典的半监督学习方法。没看一的点这里哈：半监督学习入门基础（一）半监督学习 (SSL

发表于 11-02 16:14 •2681次阅读

半监督学习：比监督学习做的更好

监督学习是人工智能领域的第一种学习类型。从它的概念开始，无数的算法，从简单的逻辑回归到大规模的神经网络，都已经被研究用来提高精...

发表于 12-08 23:32 •1138次阅读

华裔女博士提出：Facebook提出用于超参数调整的自我监督学习框架

【导读】Facebook的研究人员近日提出了一种用于超参数调整的自我监督学习框架。

发表于 04-26 09:45 •1538次阅读

机器学习中的无监督学习应用在哪些领域

解决数据中心、云计算、人工智能和边缘计算等各个行业的问题，为人们带来极大便益。自监督学习是什么？自监督学习与监督学习和非监督学习的关系自我监督

发表于 01-20 10:52 •4597次阅读

融合零样本学习和小样本学习的弱监督学习方法综述

等现实挑战，很多学者针对数据依赖小的弱监督学习方法开展研究，出现了小样本学习、零样本学习等典型研究方向。对此，本文主要介绍了弱

发表于 02-09 11:22 •1799次阅读

一种基于伪标签半监督学习的小样本调制识别算法

一种基于伪标签半监督学习的小样本调制识别算法来源：《西北工业大学学报》，作者史蕴豪等摘要：针对有标签样本较少条件下的通信信号调制识别问题，提出了一种基于伪标签半

发表于 02-10 11:37 •639次阅读