0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

来自语障人士的语音数据集合

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-12 17:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语言障碍症状影响着数百万人的生活,其产生原因很多,包括神经或遗传疾病、身体缺陷、脑损伤或听力丧失等,而由此导致的症状也各不相同,如口吃、构音障碍 (Dysarthria)、失用症 (Apraxia) 等,这些症状对患者的自我表达、社会生活参与,以及使用语音技术,都会产生不利影响。

自动语音识别 (ASR, Automatic Speech Recognition) 技术可以通过提升设备的听写和家居自动化能力以及沟通能力,来帮助语言障碍人士克服上述问题。然而,尽管随着深度学习系统计算能力的提升,以及有大型训练数据集可供使用,ASR 系统在准确率方面有所提升,但是对于许多具有语言障碍的人而言,系统的性能仍有所欠缺,导致许多本应受益良多的患者无法有效利用这项技术。

2019 年,我们推出了 Euphonia 项目,探讨如何通过个性化的识别语言障碍 ASR 模型,实现在典型语音上与通用 ASR 模型相同水平的准确率。今天我们为大家分享两项在 Interspeech 2021 上发布的研究成果,这两项研究目的在于让更多用户群体可以利用个性化 ASR 模型。在“无序语音数据集合:从 Euphonia 项目 100 万条语音中总结的经验 (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我们介绍了一个涵盖范围广泛的无序语音数据集合,其中包含的语音数据超过 100 万条。在“自动识别无序语音:在短语方面个性化模型较人类表现更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我们讨论了在基于该语料库生成个性化 ASR 模型上所开展的工作。与利用典型语音训练的开箱即用的语音模型相比,这种方法可以产生准确率更高的模型,在特定的语境中,字错误率 (WER, Word error rate) 可降低高达 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

无序语音数据集合:从 Euphonia 项目 100 万条语音中总结的经验

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自动识别无序语音:在短语方面个性化模型较人类表现更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

来自语障人士的语音数据集合

自 2019 年起,不少语障人士为支持 Euphonia 项目的研究工作提供了语音样本。他们的严重程度不同,症状也不一样。这项工作将 Euphonia 项目的语料库扩展至超过 100 万条语音,包括了来自 1330 名说话者的 1400 多小时语音记录(截至 2021 年 8 月)。

基于超过 300 条录制的语音数据,绘制出的所有说话者的语言障碍严重程度和所患病症分布图。在病症方面,仅显示患病人数超过 5 人的病症,否则统一记入“其他”以满足 k 匿名性 (k-anonymity)

ALS 代表肌萎缩性脊髓侧索硬化症;DS 代表唐氏综合症;PD 代表帕金森病;CP 代表脑瘫;HI 代表听力障碍;MD 代表肌肉萎缩症;MS 代表多发性硬化症

Euphonia 项目的研究工作

https://sites.research.google/euphonia/about/

为简化数据收集流程,参与者在笔记本电脑或者手机等个人硬件上(使用或者不使用头戴式耳机)通过家用录音系统收集语音,而不是在类似实验室这样的理想环境中收集录音棚品质的语音。

为降低转录成本,同时保持较高的转录一致性,我们优先采取了按照文本朗读的方式。参与者根据浏览器端录音工具上显示的提示语进行朗读。这些提示语涵盖家居自动化(“打开电视。”)、与看护者对话(“我饿了。”)以及非正式对话(“你好吗?你今天过得愉快吗?”)等语境。大部分参与者会朗读 1500 条提示语,其中包含 1100 个只出现一次的短语以及 100 个重复出现 4 次的短语。

语音专家在倾听每位说话者部分语音的同时,进行了全面的听觉感知和语音评估,以便根据多种为说话者分级的元数据,来判定语言障碍类型(例如口吃、构音障碍、失用症等),对如鼻音过重(Hypernasal speech)、发音失准和言语声律障碍(Dysprosody)等 24 种异常语音特征进行评定,同时对技术问题(例如信号丢失、分割问题)和声学问题(例如环境噪音、次级扬声器串扰)进行录音质量评估。

个性化 ASR 模型

这个扩展的语音障碍数据集也是我们生成无序语音个性化 ASR 模型新方法的基础。每个定制模型都使用标准的端对端 RNN-传感器 (RNN-T) ASR 模型,该模型仅对目标说话者的数据进行微调。

RNN-传感器架构。在示例中,编码器网络由 8 层组成,而预测器网络由 2 层单向 LSTM (Long short-term memory) 单元组成

为此,我们重点调整了编码器网络,也就是模型中处理说话者特定声学数据的部分,因为语音障碍是我们语料库中最常见的现象。我们发现,只更新 8 个编码器层中最底层的 5 个,而冻结最上面的 3 个编码器层(以及连接层和解码器层),可以得到最好的结果,并能够有效避免过度拟合。为了让这些模型在处理背景噪声和其他声学效应方面更具鲁棒性,我们采用了专门针对无序语音为主要特征进行调整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

结果

我们训练了约 430 名说话者的个性化 ASR 模型,他们每人至少录制了 300 条语音。我们把其中 10% 的语音作为测试集(训练和测试间没有短语重叠),在此基础上,计算了个性化模型以及未调适的基础模型的 WER。

总的来说,无论是何种严重程度还是病症,我们提供的个性化方法都取得了显著效果。即便是存在严重语言障碍的语音,家居自动化语境短语的 WER 中位数从 89% 左右降到了 13%。在如与看护者对话等其他语境中,准确率也有显著提高。

在未调适与个性化 ASR 模型中使用居家自动化短语的 WER

为了解个性化模型何时不适用,我们对以下几个子组进行了分析:

HighWER 与 LowWER:将说话者按照具有基于 WER 分布的第 1 和第 5 个五分位数的高和低划分个性化模型。

SurpHighWER:具有超高 WER 的说话者(在 HighWER 组中典型或具有轻度语言障碍的参与者)。

不同的病症以及语言障碍表现形式对 ASR 产生的影响是不一致的。根据 HighWER 组中语言障碍类型的分布表明,由于脑瘫(Cerebral palsy)引起的构音障碍特别难以建模。不出意外,该组中语言障碍严重程度的中位数也更高。

为了识别影响 ASR 准确率的特定说话者以及技术因素,我们检查了 ASR 表现较差 (HighWER) 和优秀 (LowWER) 的参与者之间元数据的差异 (Cohen‘s D)。和预期一样,LowWER 组中整体语言受损程度显著低于HighWER组 (p 《 0.01)。HighWER 组中最突出的非典型语音特征是清晰度以及受损程度,同时包含其他较为突出的语音特征,如异常的韵律(Prosody )、发音及发声(Phonation)。众所周知,这些语音特征也会降低语音的整体清晰度。

与 LowWER 组 (p 《 0.01) 相比,SurpHighWER 组中的训练语音更少,且 SNR 更低,进而导致较大(负)的效应量,而其他因素的效应量则较小(快速性除外)。相比之下,HighWER 组在所有因素中都表现出了较大差异。

语音障碍和技术元数据效应量对比结果:HighWER 组与 LowWER 组对比;SurpHighWER 组和 LowWER 组对比。正值结果表明 HighWER 组的组值大于 LowWER 组的组值

之后,我们将个性化 ASR 模型和人类听众进行了比较。三位语音专家分别为每位说话者转录了 30 条语音。我们发现,与人类听众的 WER 相比,个性化 ASR 模型的 WER 平均而言更低,并且随语言受损严重程度的增加而表现的更好。

个性化 ASR 模型 WER 与人类听众 WER 之间的增量。负值表明个性化 ASR 模型的表现优于人类(专家)听众

结论

Euphonia 语料库拥有超过 100 万条语音,是最大、最多样的无序语音语料库之一(就无序类型与受损程度而言),这一语料库大大提升了非典型语音类型中的 ASR 准确率。我们的研究结果证明,个性化 ASR 模型在识别各种语言障碍以及受损程度方面十分有效,而且具备了让更多用户使用 ASR 的潜力。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38225

    浏览量

    297075
  • 语音识别
    +关注

    关注

    39

    文章

    1804

    浏览量

    115583

原文标题:个性化语音识别模型,帮助语言障碍人士正常交流

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    端到端语音交互数据 精准赋能语音大模型进阶

    语音大模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在
    的头像 发表于 09-11 17:17 583次阅读

    【项目实战】基于Hi3861的鸿蒙智能小车(循迹、超声波避、远程控制、语音控制、4G定位)有教程代码

    入门鸿蒙物联网找不到“落地”项目——要么功能简单练不到核心,要么资料零散易半途而废。本次【项目实战】聚焦基于Hi3861的鸿蒙智能小车,整合了循迹、超声波避、远程控制、语音交互和4G定位等功能
    的头像 发表于 09-10 17:13 964次阅读
    【项目实战】基于Hi3861的鸿蒙智能小车(循迹、超声波避<b class='flag-5'>障</b>、远程控制、<b class='flag-5'>语音</b>控制、4G定位)有教程代码

    推进一款实用型的OTP语音芯片

    的操作引导和状态提示,帮助用户更高效、轻松地完成存件与取件,大幅优化使用体验。这一功能不仅加快了取件流程,也方便了视人士或手部操作不便的用户群体。YCV系列语音芯片运行稳定,适合长时间工作,还能
    发表于 08-26 11:32

    广州唯创电子WT588F02B-8S语音芯片:开启电压力锅智能语音交互新时代

    革命性的智能语音交互体验,尤其为视人士与老年用户提供了前所未有的操作便利。一、核心引擎:WT588F02B-8S语音芯片简介WT588F02B-8S是一款集高性
    的头像 发表于 08-18 08:20 600次阅读
    广州唯创电子WT588F02B-8S<b class='flag-5'>语音</b>芯片:开启电压力锅智能<b class='flag-5'>语音</b>交互新时代

    语音输出模块是什么?自控语音播报

    :接收来自云平台(如单片机/PLC/电脑)的指令,输入可能是:文本数据(例如:"温度过高")、预存语音编码(如MP3/WAV文件的数字信号)、控制指令(触发预置语音片段) 2.
    的头像 发表于 08-13 15:20 625次阅读

    广州唯创电子WTN6/WT588F/WTV系列语音芯片:赋能电磁炉行业智能化升级与人机交互新体验

    随着科技融入生活,电磁炉已成为现代厨房核心电器。然而,其传统按键操作界面对老人、视人士及识字困难群体构成了显著使用壁垒。广州唯创电子凭借深厚技术积累,推出WTN6、WT588F、WTV三大系列语音
    的头像 发表于 07-22 08:47 389次阅读
    广州唯创电子WTN6/WT588F/WTV系列<b class='flag-5'>语音</b>芯片:赋能电磁炉行业智能化升级与人机交互新体验

    也能预判?视觉黑科技让扫地机器人开启“先知”模式

    从被动避到主动预判,视觉避技术比预想的更快实现。
    的头像 发表于 06-18 14:09 836次阅读

    智能语音赋能健康监测:NV128H芯片重塑血压管理新范式

    智能血压计语音芯片开发在人口老龄化加剧和慢性病高发的双重压力下,血压,作为反映人体健康状态的重要指标之一,更是需要我们时刻关注。传统血压测量设备存在操作复杂、读数不便等痛点,尤其对老年群体和视人士
    的头像 发表于 05-06 11:49 795次阅读
    智能<b class='flag-5'>语音</b>赋能健康监测:NV128H芯片重塑血压管理新范式

    蓝牙语音遥控国产适用芯片HS6621

    长亮,用户开始录音同时将语音数据上传给智能电视或者机顶盒。而智能电视或者机顶盒,接收到 HID 编码后,打开语音识别软件,开始识音并把语音数据
    发表于 04-30 16:21

    大模型时代的新燃料:大规模拟真多风格语音合成数据

    以大模型技术为核心驱动力的人工智能变革浪潮中,语音交互领域正迎来广阔的成长空间,应用场景持续拓宽与延伸。 其中,数据作为驱动语音大模型进化的关键要素,重要性愈发凸显。丰富多样的高质量数据
    的头像 发表于 04-30 16:17 539次阅读

    RDK加持的导盲眼镜:视人士的“眼睛外挂”

    我国有超1700万视人士,如何让他们更安全、自主地出行?别担心,智能瞳行来啦!这是一款“自带外挂”的导航神器,集成了高精度视觉传感和YOLO算法,实时识别障碍物、行人、交通标志,并通过语音播报精准
    的头像 发表于 03-14 19:43 1131次阅读
    RDK加持的导盲眼镜:视<b class='flag-5'>障</b><b class='flag-5'>人士</b>的“眼睛外挂”

    DLP4710EVM-LC两个条纹集合投影冲突怎么解决?

    如图所示,我将条纹图写入投影仪用于投影,当只有一个条纹集合时投影正常,因为一个集合最多投影7张图片,而我需要投影22张; 当设置的条纹集合超过一个时,点击连续投影,投影仪投影的图片就会出现一闪而过的情况,并且即使按了暂停也没有
    发表于 02-19 08:36

    AN42-基准电压源电路集合

    电子发烧友网站提供《AN42-基准电压源电路集合.pdf》资料免费下载
    发表于 01-08 14:33 25次下载
    AN42-基准电压源电路<b class='flag-5'>集合</b>

    标贝数据标注案例分享:车载语音系统数据标注

    的作用。一般来说,车载语音识别系统主要分为前端和后端两个部分,本文将针对前端语音信号数据采集标注进行实例讲解。
    的头像 发表于 12-24 14:24 829次阅读
    标贝<b class='flag-5'>数据</b>标注案例分享:车载<b class='flag-5'>语音</b>系统<b class='flag-5'>数据</b>标注

    Flash语音芯片相比OTP语音芯片的优势

    ‌。 1‌.可重复擦写‌:Flash语音芯片的最大特点是支持多次编程和擦除,这意味着用户可以根据需要随时更新语音内容,实现定制化和灵活的语音交互。相比之下,OTP语音芯片只能编程一次,
    的头像 发表于 12-16 15:44 815次阅读