0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

来自语障人士的语音数据集合

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-12 17:09 次阅读

语言障碍症状影响着数百万人的生活,其产生原因很多,包括神经或遗传疾病、身体缺陷、脑损伤或听力丧失等,而由此导致的症状也各不相同,如口吃、构音障碍 (Dysarthria)、失用症 (Apraxia) 等,这些症状对患者的自我表达、社会生活参与,以及使用语音技术,都会产生不利影响。

自动语音识别 (ASR, Automatic Speech Recognition) 技术可以通过提升设备的听写和家居自动化能力以及沟通能力,来帮助语言障碍人士克服上述问题。然而,尽管随着深度学习系统计算能力的提升,以及有大型训练数据集可供使用,ASR 系统在准确率方面有所提升,但是对于许多具有语言障碍的人而言,系统的性能仍有所欠缺,导致许多本应受益良多的患者无法有效利用这项技术。

2019 年,我们推出了 Euphonia 项目,探讨如何通过个性化的识别语言障碍 ASR 模型,实现在典型语音上与通用 ASR 模型相同水平的准确率。今天我们为大家分享两项在 Interspeech 2021 上发布的研究成果,这两项研究目的在于让更多用户群体可以利用个性化 ASR 模型。在“无序语音数据集合:从 Euphonia 项目 100 万条语音中总结的经验 (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我们介绍了一个涵盖范围广泛的无序语音数据集合,其中包含的语音数据超过 100 万条。在“自动识别无序语音:在短语方面个性化模型较人类表现更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我们讨论了在基于该语料库生成个性化 ASR 模型上所开展的工作。与利用典型语音训练的开箱即用的语音模型相比,这种方法可以产生准确率更高的模型,在特定的语境中,字错误率 (WER, Word error rate) 可降低高达 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

无序语音数据集合:从 Euphonia 项目 100 万条语音中总结的经验

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自动识别无序语音:在短语方面个性化模型较人类表现更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

来自语障人士的语音数据集合

自 2019 年起,不少语障人士为支持 Euphonia 项目的研究工作提供了语音样本。他们的严重程度不同,症状也不一样。这项工作将 Euphonia 项目的语料库扩展至超过 100 万条语音,包括了来自 1330 名说话者的 1400 多小时语音记录(截至 2021 年 8 月)。

基于超过 300 条录制的语音数据,绘制出的所有说话者的语言障碍严重程度和所患病症分布图。在病症方面,仅显示患病人数超过 5 人的病症,否则统一记入“其他”以满足 k 匿名性 (k-anonymity)

ALS 代表肌萎缩性脊髓侧索硬化症;DS 代表唐氏综合症;PD 代表帕金森病;CP 代表脑瘫;HI 代表听力障碍;MD 代表肌肉萎缩症;MS 代表多发性硬化症

Euphonia 项目的研究工作

https://sites.research.google/euphonia/about/

为简化数据收集流程,参与者在笔记本电脑或者手机等个人硬件上(使用或者不使用头戴式耳机)通过家用录音系统收集语音,而不是在类似实验室这样的理想环境中收集录音棚品质的语音。

为降低转录成本,同时保持较高的转录一致性,我们优先采取了按照文本朗读的方式。参与者根据浏览器端录音工具上显示的提示语进行朗读。这些提示语涵盖家居自动化(“打开电视。”)、与看护者对话(“我饿了。”)以及非正式对话(“你好吗?你今天过得愉快吗?”)等语境。大部分参与者会朗读 1500 条提示语,其中包含 1100 个只出现一次的短语以及 100 个重复出现 4 次的短语。

语音专家在倾听每位说话者部分语音的同时,进行了全面的听觉感知和语音评估,以便根据多种为说话者分级的元数据,来判定语言障碍类型(例如口吃、构音障碍、失用症等),对如鼻音过重(Hypernasal speech)、发音失准和言语声律障碍(Dysprosody)等 24 种异常语音特征进行评定,同时对技术问题(例如信号丢失、分割问题)和声学问题(例如环境噪音、次级扬声器串扰)进行录音质量评估。

个性化 ASR 模型

这个扩展的语音障碍数据集也是我们生成无序语音个性化 ASR 模型新方法的基础。每个定制模型都使用标准的端对端 RNN-传感器 (RNN-T) ASR 模型,该模型仅对目标说话者的数据进行微调。

RNN-传感器架构。在示例中,编码器网络由 8 层组成,而预测器网络由 2 层单向 LSTM (Long short-term memory) 单元组成

为此,我们重点调整了编码器网络,也就是模型中处理说话者特定声学数据的部分,因为语音障碍是我们语料库中最常见的现象。我们发现,只更新 8 个编码器层中最底层的 5 个,而冻结最上面的 3 个编码器层(以及连接层和解码器层),可以得到最好的结果,并能够有效避免过度拟合。为了让这些模型在处理背景噪声和其他声学效应方面更具鲁棒性,我们采用了专门针对无序语音为主要特征进行调整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

结果

我们训练了约 430 名说话者的个性化 ASR 模型,他们每人至少录制了 300 条语音。我们把其中 10% 的语音作为测试集(训练和测试间没有短语重叠),在此基础上,计算了个性化模型以及未调适的基础模型的 WER。

总的来说,无论是何种严重程度还是病症,我们提供的个性化方法都取得了显著效果。即便是存在严重语言障碍的语音,家居自动化语境短语的 WER 中位数从 89% 左右降到了 13%。在如与看护者对话等其他语境中,准确率也有显著提高。

在未调适与个性化 ASR 模型中使用居家自动化短语的 WER

为了解个性化模型何时不适用,我们对以下几个子组进行了分析:

HighWER 与 LowWER:将说话者按照具有基于 WER 分布的第 1 和第 5 个五分位数的高和低划分个性化模型。

SurpHighWER:具有超高 WER 的说话者(在 HighWER 组中典型或具有轻度语言障碍的参与者)。

不同的病症以及语言障碍表现形式对 ASR 产生的影响是不一致的。根据 HighWER 组中语言障碍类型的分布表明,由于脑瘫(Cerebral palsy)引起的构音障碍特别难以建模。不出意外,该组中语言障碍严重程度的中位数也更高。

为了识别影响 ASR 准确率的特定说话者以及技术因素,我们检查了 ASR 表现较差 (HighWER) 和优秀 (LowWER) 的参与者之间元数据的差异 (Cohen‘s D)。和预期一样,LowWER 组中整体语言受损程度显著低于HighWER组 (p 《 0.01)。HighWER 组中最突出的非典型语音特征是清晰度以及受损程度,同时包含其他较为突出的语音特征,如异常的韵律(Prosody )、发音及发声(Phonation)。众所周知,这些语音特征也会降低语音的整体清晰度。

与 LowWER 组 (p 《 0.01) 相比,SurpHighWER 组中的训练语音更少,且 SNR 更低,进而导致较大(负)的效应量,而其他因素的效应量则较小(快速性除外)。相比之下,HighWER 组在所有因素中都表现出了较大差异。

语音障碍和技术元数据效应量对比结果:HighWER 组与 LowWER 组对比;SurpHighWER 组和 LowWER 组对比。正值结果表明 HighWER 组的组值大于 LowWER 组的组值

之后,我们将个性化 ASR 模型和人类听众进行了比较。三位语音专家分别为每位说话者转录了 30 条语音。我们发现,与人类听众的 WER 相比,个性化 ASR 模型的 WER 平均而言更低,并且随语言受损严重程度的增加而表现的更好。

个性化 ASR 模型 WER 与人类听众 WER 之间的增量。负值表明个性化 ASR 模型的表现优于人类(专家)听众

结论

Euphonia 语料库拥有超过 100 万条语音,是最大、最多样的无序语音语料库之一(就无序类型与受损程度而言),这一语料库大大提升了非典型语音类型中的 ASR 准确率。我们的研究结果证明,个性化 ASR 模型在识别各种语言障碍以及受损程度方面十分有效,而且具备了让更多用户使用 ASR 的潜力。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26471

    浏览量

    264097
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111838

原文标题:个性化语音识别模型,帮助语言障碍人士正常交流

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语音数据集在智能语音搜索中的应用与挑战

    一、引言 随着互联网的普及和移动设备的兴起,智能语音搜索已经成为人们获取信息的重要方式之一。智能语音搜索通过语音交互的方式,为用户提供更加便捷、高效的信息查询服务。语音
    的头像 发表于 01-18 15:09 215次阅读

    xc7集合08 2输入AND门产品数据

    电子发烧友网站提供《xc7集合08 2输入AND门产品数据表.pdf》资料免费下载
    发表于 01-03 15:03 0次下载
    xc7<b class='flag-5'>集合</b>08 2输入AND门产品<b class='flag-5'>数据</b>表

    xc7集合02 2输入NOR门产品数据

    电子发烧友网站提供《xc7集合02 2输入NOR门产品数据表.pdf》资料免费下载
    发表于 01-03 14:59 0次下载
    xc7<b class='flag-5'>集合</b>02 2输入NOR门产品<b class='flag-5'>数据</b>表

    语音数据集:智能语音技术的燃料与推动力

    随着人工智能技术的不断进步,语音技术作为人机交互的重要方式,正在逐渐渗透到我们的日常生活中。而语音数据集作为智能语音技术的“燃料”,对于推动其发展具有不可替代的作用。 一、
    的头像 发表于 12-29 11:11 169次阅读

    语音数据集:开启智能语音技术的新篇章

    随着人工智能技术的飞速发展,语音数据集在推动智能语音技术的进步中发挥着越来越重要的作用。语音数据集是训练和优化
    的头像 发表于 12-29 11:06 205次阅读

    语音数据集:探索、挑战与应用

    随着人工智能技术的飞速发展,语音识别技术已经渗透到我们生活的方方面面,从智能手机助手到智能家居设备,再到自动驾驶汽车,都离不开这项技术的支持。而在这些技术的背后,语音数据集扮演着至关重要的角色。本文
    的头像 发表于 12-28 13:56 246次阅读

    语音数据集:智能语音技术的基石与挑战

    随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术研发的核心资源,对于提高语音识别、合成及自然语
    的头像 发表于 12-28 11:28 331次阅读

    语音数据集在智能语音助手中的应用与挑战

    一、引言 随着智能设备的普及和人工智能技术的不断发展,智能语音助手已经成为人们日常生活中不可或缺的一部分。语音数据集在智能语音助手中发挥着重要作用,它提供了丰富的
    的头像 发表于 12-14 15:07 348次阅读

    语音数据集在人工智能中的应用与挑战

    一、引言 随着人工智能技术的快速发展,语音数据集在各种应用中发挥着越来越重要的作用。语音数据集是AI语音技术的基石,对于
    的头像 发表于 12-14 15:00 271次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨语音
    的头像 发表于 12-14 14:33 360次阅读

    语音数据集:推动AI语音技术的核心力量

    一、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据集则是推动AI语音技术的核心力量。本文将详细介绍
    的头像 发表于 12-12 11:32 292次阅读

    Guava Collect常见的集合

    是Guava工具包中的一个子模块,主要对jdk中的集合操作添加了一些简易的API,同时也是对Collections工具类的扩展。当然Guava还定义了一些特定场景的数据结构以及一些针对jdk集合的优化
    的头像 发表于 10-08 11:35 267次阅读

    语音数据标注平台让语音识别技术更精准

    随着人工智能技术的快速发展,语音识别技术越来越普及,成为人们日常生活中不可或缺的一部分。然而,如何保证语音识别技术的准确性和稳定性一直是技术领域的难题。为此,一些专业的语音数据标注平台
    的头像 发表于 07-21 16:05 431次阅读

    LabVIEW中集合的相关知识

    在LabVIEW中,集合中的元素可以是任意基本数据类型(如数值、字符串、数组、簇等),LabVIEW中的集合是将相同类型的唯一有序数据元素归为一个
    发表于 07-07 10:16 1294次阅读
    LabVIEW中<b class='flag-5'>集合</b>的相关知识

    语音合成数据定制服务:为智能化语音应用赋能

    带来更便捷和愉悦的体验。而要实现高质量的语音合成,数据定制服务则成为关键。在这方面,数据堂是您的理想合作伙伴。 作为一家领先的数据科技公司,数据
    的头像 发表于 06-18 21:26 296次阅读