0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过多尺度说话人分解实现动态尺度加权

星星科技指导员 来源:NVIDIA 作者:Taejin Park 2022-10-11 11:46 次阅读

说话人日记化是按说话人标签对录音进行分段的过程,旨在回答“谁在何时发言?”。与语音识别相比,它有着明显的区别。

在你执行说话人日记化之前,你知道“说的是什么”,但你不知道“谁说的”。因此,说话人日记化是语音识别系统的一个基本特征,它可以用说话人标签丰富转录内容。也就是说,如果没有说话人日记化过程,会话录音永远不能被视为完全转录,因为没有说话者标签的转录无法通知您是谁在和谁说话。

poYBAGNE5weAXAPzAAT1u1irANs872.png

图 1.说话人区分是将音频记录划分为说话人同质区域的任务

说话人日记必须产生准确的时间戳,因为在会话设置中,说话人的话轮数可能非常短。我们经常使用短的反向通道词,如“ yes ”、“ uh huh ”或“ oh ”。这些词对机器转录和识别说话人来说很有挑战性。

虽然根据说话人身份对音频记录进行分段,但说话人日记化需要对相对较短的分段进行细粒度决策,从十分之几秒到几秒不等。对如此短的音频片段做出准确、细粒度的决策是一项挑战,因为它不太可能捕捉到可靠的说话人特征。

在本文中,我们讨论了如何通过引入一种称为多尺度方法和多尺度二值化解码器( MSDD )的新技术来处理多尺度输入来解决这个问题。

多尺度分割机制

就扬声器特征的质量而言,提取长音频段是可取的。然而,音频段的长度也限制了粒度,这导致扬声器标签决策的单位长度较粗。如图 2 所示的曲线所示,说话人区分系统面临着时间分辨率和说话人表示保真度之间的权衡问题。

在说话人区分流水线中的说话人特征提取过程中,为了获得高质量的说话者表示向量,不可避免地要花费较长的语音段来牺牲时间分辨率。在简单明了的语言中,如果你试图准确掌握语音特征,那么你必须考虑更长的时间跨度。

同时,如果你考虑更长的时间跨度,你必须在相当长的时间跨度内做出决定。这会导致粗决策(时间分辨率低)。想想这样一个事实,如果只录下半秒钟的讲话,即使是人类听众也无法准确地说出谁在讲话。

在大多数分音系统中,音频段长度在 1.5 到 3.0 秒之间,因为这样的数字在扬声器特性的质量和时间分辨率之间取得了很好的折衷。这种分割方法称为 single-scale approach 。

即使使用重叠技术,单尺度分割也将时间分辨率限制在 0.75 ~ 1.5 秒,这在时间精度方面留下了改进的空间。

粗略的时间分辨率不仅会降低二值化的性能,而且会降低说话人计数的准确性,因为短语音片段无法正确捕获。 更重要的是,说话人时间戳中的这种粗时间分辨率使得解码后的 ASR 文本与说话人区分结果之间的匹配更容易出错。

为了解决这个问题,我们提出了一种多尺度方法,这是一种通过从多段长度中提取说话人特征,然后将多尺度的结果结合起来来处理这种权衡的方法。多尺度技术在最流行的说话人方言化基准数据集上实现了最先进的精度。它已经是开源会话 AI 工具包 NVIDIA NeMo 的一部分。

图 2 显示了多尺度扬声器分辨率的关键技术解决方案。

pYYBAGNE5wiASmKrAAKTpiqNJ4w141.png

图 2.说话人表示的时间分辨率和保真度的相应折衷曲线

多尺度方法通过使用多尺度分割和从每个尺度提取说话人嵌入来实现。在图 2 的左侧,在多尺度分割方法中执行了四种不同的尺度。

在段关联性计算过程中,将合并从最长刻度到最短刻度的所有信息,但只对最短的段范围作出决策。当组合每个音阶的特征时,每个音阶权重在很大程度上影响说话人的区分性能。

基于神经模型的多尺度分解流水线

由于刻度权重在很大程度上决定了说话人区分系统的准确性,因此应设置刻度权重以使说话人的区分性能达到最大。

我们提出了一种称为 multiscale diarization decoder ( MSDD )的新型多尺度二值化系统,该系统在每个时间步长动态确定每个尺度的重要性。

说话人日记系统依赖于被称为说话人嵌入的音频特征向量捕获的说话人特征。通过神经模型提取说话人嵌入向量,从给定的音频信号中生成稠密浮点数向量。

MSDD 从多个尺度中提取多个说话人嵌入向量,然后估计所需的尺度权重。基于估计的音阶权重,生成扬声器标签。如果输入信号被认为在某些尺度上具有更准确的信息,则所提出的系统在大尺度上的权重更大。

图 3 显示了提议的多尺度说话人分离系统的数据流。从音频输入中提取多尺度分段,并使用扬声器嵌入提取器( TitaNet )生成用于多尺度音频输入的相应扬声器嵌入向量。

poYBAGNE5wmAMGO8AAKQMyg0J0A993.png

图 3.拟建 多尺度说话人识别系统 的数据流

提取的多尺度嵌入通过聚类算法进行处理,以向 MSDD 模块提供初始化聚类结果。 MSDD 模块使用簇平均说话人嵌入向量与输入说话人嵌入式序列进行比较。估计每个步骤的磅秤权重,以衡量每个磅秤的重要性。

最后,训练序列模型输出每个说话人的说话人标签概率。

MSDD 机制

Scale-weights.png

图 4.根据 MSDD 中的 1-D CNN 计算出的秤重量

在图 4 中, 1-D 滤波器 从输入嵌入和集群平均嵌入捕获上下文。

pYYBAGNE5xCATUlOAAURzFKy_fo156.png

图 5.MSDD 的上下文向量

在图 5 中,每个说话人和每个尺度的余弦相似性值由尺度权重加权,形成加权余弦相似向量。

通过动态计算每个尺度的权重,训练神经网络模型 MSDD 以利用多尺度方法。 MSDD 获取初始聚类结果,并将提取的说话人嵌入与聚类平均说话人表示向量进行比较。

最重要的是,每个时间步长的每个尺度的权重是通过尺度权重机制确定的,其中尺度权重是通过应用于多尺度说话人嵌入输入和簇平均嵌入的一维卷积神经网络( CNN )计算得出的(图 3 )。

估计的尺度权重应用于为每个说话人和每个尺度计算的余弦相似值。图 5 显示了通过对集群平均说话人嵌入和输入说话人嵌入式之间计算出的余弦相似性(图 4 )应用估计的比例权重来计算上下文向量的过程。

最后,每个步骤的每个上下文向量都被送入一个多层 LSTM 模型,该模型生成每个说话人的说话人存在概率。图 6 显示了 LSTM 模型和上下文向量输入如何估计说话人标签序列。

poYBAGNE5xGARmLYAADsY_Jbi1E774.png

图 6.使用 LSTM 的序列建模

图 6 ,使用 LSTM 的序列建模接受上下文向量输入并生成说话人标签。 MSDD 的输出是两个说话人在每个时间步存在说话人的概率值。

拟议的说话人日记系统旨在支持以下功能:

扬声器数量灵活

重叠感知区分

预训练说话人嵌入模型

扬声器数量灵活

MSDD 使用两两推理来记录与任意数量说话人的对话。例如,如果有四个说话人,则提取六对,并对 MSDD 的推理结果进行平均,以获得四个说话人中每个人的结果。

重叠感知区分

MSDD 独立估计每个步骤中两个扬声器的两个扬声器标签的概率(图 6 )。这可以在两个扬声器同时讲话的情况下进行重叠检测

预训练说话人嵌入模型

MSDD 基于预处理嵌入提取器( TitaNet )模型。通过使用预处理说话人模型,可以使用从相对大量的单说话人语音数据中学习的神经网络权重。

此外, MSDD 设计为使用经过预处理的说话人进行优化,以在特定领域的说话者日记数据集上微调整个说话人日记系统。

实验结果和定量效益

提出的 MSDD 系统有几个定量优势:卓越的时间分辨率和提高的准确性。

卓越的时间分辨率

虽然单尺度聚类分解器在 1.5 秒的分段长度上表现出最佳性能,其中单位决策长度为 0.75 秒(半重叠),但提议的多尺度方法的单位决策长度是 0.25 秒。通过使用需要更多步骤和资源的更短移位长度,可以进一步提高时间分辨率。

图 2 显示了多尺度方法的概念和 0.5 秒的单位决策长度。由于扬声器功能的保真度降低,仅将 0.5 秒的片段长度应用于单刻度分划器会显著降低分划性能。

提高准确性

通过比较假设时间戳和地面真值时间戳来计算重化错误率( DER )。图 7 显示了多尺度二值化方法相对于最先进的单尺度聚类方法的量化性能。

pYYBAGNE5xKASPcxAAC_wa06R_w937.png

图 7.先前最先进结果的定量评估 ( Landini et al. 2022 ) ,单尺度聚类法 ( prior work ) 和多尺度方法 ( proposed ) 关于三个不同的数据集

与单尺度聚类日记器相比,所提出的 MSDD 方法可以在两个说话人数据集上减少多达 60% 的 DER 。

结论

拟议系统具有以下优点:

这是第一个应用多尺度加权概念和基于序列模型( LSTM )的说话人标签估计的神经网络架构。

加权方案集成在单个推理会话中,不需要像其他说话人日记化系统那样融合多个日记化结果。

提出的多尺度分解系统能够实现重叠感知的分解,这是传统基于聚类的分解系统无法实现的。

因为解码器基于基于聚类的初始化,所以分音系统可以处理灵活数量的说话人。这表明您可以在两个说话人数据集上训练建议的模型,然后使用它对两个或更多说话人进行分类。

虽然具有前面提到的所有优点,但与之前公布的结果相比,所提出的方法显示了优越的区分性能。

关于拟议系统,未来有两个研究领域:

我们计划通过实现基于短期窗口聚类的二值化解码器来实现该系统的流媒体版本。

可以研究从说话人嵌入提取器到二值化解码器的端到端优化,以提高说话人二值化性能。

关于作者

Taejin Park 在韩国首尔国立大学获得电气工程学士学位和电气工程与计算机科学硕士学位。 2010 年和 2012 年。 2012 年,他加入韩国大田市电气和电信研究所( ETRI ),担任研究员。他毕业于南加州大学( USC ),获得电气工程博士学位和计算机科学硕士学位。 Taejin Park 目前在 NVIDIA 担任应用科学家。他的研究兴趣包括机器学习和专注于说话人日记化的语音信号处理。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40159
  • NVIDIA
    +关注

    关注

    14

    文章

    4595

    浏览量

    101736
收藏 人收藏

    评论

    相关推荐

    尺度变换

    请问在labview中如何实现信号的尺度变换啊
    发表于 05-05 15:47

    关于labview中使用连续小波变换后接强度图得到时间-尺度图,如何将尺度转换为频率

    在labview中使用连续小波变换得到时间-尺度图,如何将尺度转换为频率?我在网上查了一下,说是尺度对应的实际频率Fa=(Fc×fs)/a,其中Fa为实际频率,Fc为小波中心频率,fs为采样频率,a为
    发表于 05-12 17:39

    基于尺度相乘的Canny改进算法

    在Canny 算法框架下,对图像进行多尺度滤波分析。定义尺度乘积函数为2 个不同尺度滤波器的响应乘积,由相邻尺度近似性确定乘积后的幅值和相角,再选择阈值剔除伪边缘,由非极
    发表于 03-30 08:58 8次下载

    基于Kalman滤波的多尺度融合估计新算法

    将信号的多尺度分析方法与多传感器数据融合技术相结合,基于某一尺度上给定的状态模型和在不同尺度上拥有不同采样率的多传感器分布式动态系统,提出了一种新的基于Kalman 滤波
    发表于 06-22 13:15 21次下载

    单传感器单模型动态系统多尺度分解与估计新算法

    本文将基于模型的动态系统分析方法与具有统计特性的多尺度信号变换方法相结合,基于某一尺度上给定的单传感器单模型动态系统,建立起一个新的多尺度
    发表于 06-23 08:51 12次下载

    模糊多尺度边缘检测算法的研究

    为了解决多尺度边缘检测中有效检出和精确定位的矛盾,本文提出了一种新的模糊多尺度边缘检测算法。该算法以图像的小波分解为基础,把图像的多尺度信息描述为模糊矩阵,然
    发表于 07-08 08:37 8次下载

    基于小波分解的图像融合方法及性能评价

    给出了一种新的基于小波多尺度分解的分层图像融合方法. 其基本思想是先对源图像进行小波多尺度分解; 其次, 按照融合规则, 采用基于区域特性量测的选择及
    发表于 07-17 10:44 12次下载

    基于加权尺度张量子空间的人脸图像特征提取方法_王仕民

    基于加权尺度张量子空间的人脸图像特征提取方法_王仕民
    发表于 01-08 10:57 1次下载

    基于多尺度小波分解和时间序列解决风电场预测精度等问题

    针对目前风电场风速预测精度较低的问题,提出一种基于多尺度小波分解和时间序列法的混合风速预测模型,通过小波分解将风速非平稳时间序列分解为不同
    发表于 10-21 09:40 3次下载
    基于多<b class='flag-5'>尺度</b>小波<b class='flag-5'>分解</b>和时间序列解决风电场预测精度等问题

    基于引导滤波的Retinex多尺度分解色调映射算法

    传统的低动态范围显示设备不能很好地表现高动态范围图像信息,针对这一问题,提出一种基于引导滤波的Retinex多尺度分解色调映射算法。该算法使用引导滤波对光照信息进行估计,将高
    发表于 11-21 15:38 14次下载
    基于引导滤波的Retinex多<b class='flag-5'>尺度</b><b class='flag-5'>分解</b>色调映射算法

    基于多尺度HOG的草图检索

    基于兴趣点的多尺度HOG特征。利用图像的多尺度HOG特征集生成视觉词典,最终形成与视觉词典相关的特征描述向量,通过相似度匹配实现草图检索。将该算法与单一
    发表于 12-04 09:56 0次下载

    如何使用多尺度和多任务卷积神经网络实现人群计数

    图描述人群信息,消除人群遮挡影响;其次通过构建多尺度卷积神经网络解决人群尺度不一问题,以多任务学习机制同时估计密度图及人群密度等级,解决人群分布不均问题;最后设计一种加权损失函数,提高
    发表于 01-18 16:47 9次下载

    如何使用跨尺度代价聚合实现改进立体匹配算法

    针对现有的立体匹配算法在精度和速度上不可兼得的现状,提出一种改进的跨尺度代价聚合立体匹配算法。通过强度和梯度算法计算匹配代价,利用引导滤波聚合匹配代价,采用跨尺度模型聚合各尺度的匹配代
    发表于 02-02 14:36 10次下载
    如何使用跨<b class='flag-5'>尺度</b>代价聚合<b class='flag-5'>实现</b>改进立体匹配算法

    结合多尺度边缘保持分解与PCNN的图像融合方法

    在医学图像融合过程中,传统多尺度分析方法多采用线性滤波器,由于无法保留图像边缘特征导致分解阶段的强边缘处岀现模糊,从而产生光晕。为提髙融合图像的视觉感知效果,通过结合多尺度边缘保持
    发表于 03-23 15:54 16次下载
    结合多<b class='flag-5'>尺度</b>边缘保持<b class='flag-5'>分解</b>与PCNN的图像融合方法

    基于局部加权拟合的无人机遥感影像多尺度检测

    基于局部加权拟合的无人机遥感影像多尺度检测
    发表于 06-23 11:56 28次下载