0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google最新发布的一个用于帮助训练和评估关键词识别系统的口语词汇组成的音频数据集

8g3K_AI_Thinker 来源:未知 作者:李倩 2018-04-16 15:41 次阅读

在本文中,我们描述了Google最新发布的一个用于帮助训练和评估关键词识别系统的口语词汇组成的音频数据集。讨论了为什么这个任务是一个有趣的挑战,以及为什么它需要一个专门的,与用于对完整句子进行自动语音识别的传统数据集所不同的数据集。

我们提出了一种对该任务进行可重复、可比较的精确度指标度量方法。描述了数据是如何被收集和验证的,它所包含的内容,以及其以前的版本和属性。通过报告在该数据集上训练的模型的基线结果而得出了结论。

一般说来,语音识别研究传统上需要大学或企业等大型机构的资源来进行。在这些机构工作的人通常可以通过与语言数据联盟(Linguistic Data Consortium)等组织达成协议,从而自由地访问并使用学术数据集或者专有的商业数据。

随着语音技术的成熟,想要训练和评估识别模型的人数已经不仅只是这些传统组织群体,但是数据集的可用性并没有被扩展。正如ImageNet和计算机视觉领域中类似的集合所显示的那样,拓宽对数据集的访问可以鼓励跨组织的协作,并使得在不同方法之间能够进行同类比较,帮助整个领域向前发展。

语音命令数据集(Speech Commands dataset)是为一类简单的语音识别任务构建标准训练和评估数据集的尝试。它的主要目标是提供一种方法来构建和测试小模型,这些模型可以从背景噪音或不相关语音中以尽可能少的误报(false positives),从一组10个或更少的目标单词中检测出单个单词的使用时间,这个任务通常被称为关键词识别。

为了覆盖到更广泛的研究人员和开发人员,该数据集已经在“知识共享”(Creative Commons)4.0许可下被发布了出来。这使该数据集能够很容易地被纳入到教程和其他脚本中,可以被下载和使用,而不需要任何用户干预(例如,在网站上注册或向管理员发送电子邮件寻求许可)。该许可证在商业环境中也是众所周知的,因此通常在需要批准的情况下可以由法律团队快速处理。

图1:数据集中每个单词的记录数量

▌相关研究

Mozilla的通用语音(Common Voice)数据集拥有2万名不同的人的超过500个小时的语音,并且可以在“知识共享”Zero许可(类似于公共域)下使用。这个许可证使得构建它非常容易。它由句子对齐,并且是由志愿者通过网络应用程序阅读请求的短语而创建的。

LibriSpeech是一个1000小时的阅读英语演讲集,在“知识共享”4.0许可下发布,并使用受到广泛支持的开源FLAC编码器进行存储。它的标签只在句子级别上对齐,因此缺少词级的对齐信息。这使得它比起关键词识别更适合全自动语音识别。

TIDIGITS包含由300位不同说话者录制的25,000位数字序列,由付费的参与者在安静的房间录制。该数据集只能在来自语言数据联盟的商业许可下使用,并且以NIST SPHERE文件格式存储,这种格式被证实难以使用现代软件来解码。我们关于关键词识别的初始实验是使用该数据集进行的。

CHiME-5拥有在人们家中录制的50个小时的语音记录,存储为16 KHz的 WAV文件,并可以在有限的许可下使用。它在句子级别对齐。

许多语音接口依赖关键词识别来启动交互。例如,你可能会说”Hey Google"或"Hey Siri”开始查询或命令你的手机。一旦设备知道你想要进行交互,就可以将音频发送到Web服务以运行一个仅受商业考虑限制的模型,因为它可以在资源由云服务提供商控制的服务器上运行。虽然交互开始的初始检测想要作为基于云的服务运行是不切实际的,因为它需要始终从所有设备通过网络发送音频数据。这样维护成本会非常高,并且会增加该技术的隐私风险。

相反,大多数语音接口在手机或其他设备上本地运行识别模块。这种连续监听来自麦克风的音频输入,并不是通过互联网将数据发送到服务器,而是他们运行监听所需触发短语的模型。一旦听到可能的触发信号后,就开始将音频传输到Web服务。由于本地模型在不受Web服务提供商控制的硬件上运行,因此设备模型必须尊重硬资源限制。其中最明显的是,通常移动处理器所具有的总计算能力比大多数服务器要低得多,因此为了实现交互式响应,近似实时运行,设备模型的计算所需的计算量必须少于其等效云计算量。

更巧妙的是,移动设备的电池续航时间有限,而且持续运行的任何设备都需要非常节能,否则用户会发现设备的耗电速度太快。这一考虑不适用于插电式家用设备,但这些设备在可以消散多少热量上存在一定的限制,从而限制了本地模型可用的能源数量,并受到诸如能源之星(EnergyStar)等计划的鼓励,尽可能减少其整体用电量。最后需要考虑的是,用户期望设备能够做出快速响应,而网络延迟可能会因环境而变化很大,因此,即使服务器的全部响应延迟,一些命令已收到的初始确认对于获得良好体验也很重要。

这些约束意味着,关键词识别的任务与一旦发现交互后在服务器上执行的语音识别是完全不同的:

关键词识别模型必须更小,所涉及的计算量更少。

它们需要以非常节能的方式运行。

它们的大部分输入是沉默或背景噪声,而不是言语,所以误报必须尽量减少。

大部分语音输入与语音接口无关,因此模型不应触发任意语音。

识别的重要单位是单个单词或短语,而不是整个句子。

这些差异意味着设备内关键词识别和一般语音识别模型之间的训练和评估过程是完全不同的。有一些有发展前景的数据集可以支持通用的语音任务,例如Mozilla的通用语音,但它们不容易适用于关键词识别。

此语音命令数据集旨在满足构建和测试设备上模型的特殊需求,使模型作者能够使用与其他模型相媲美的度量标准来演示其架构的精确度,并为团队提供一种简单的方法通过对相同数据进行训练来重现基准模型。希望这将加速进展和协作,并提高可用模型的整体质量。

第二个重要受众是硬件制造商。通过使用密切反映产品需求的公开可用任务,芯片供应商可以以潜在购买者易于比较的方式展示其产品的精确度和能源使用情况。这种增加的透明度应该会导致硬件更好地满足产品要求。这些模型还应提供硬件工程师可用来优化其芯片的清晰规范,并可能提出模型更改,以便提供更高效的实现。机器学习和硬件之间的这种协同设计可以是一个良性循环,在各个领域之间增加有用信息的流动,而这对双方都有帮助。

图2:使用不同训练数据的Top-One精确度评估结果

该数据集的版本1于2017年8月3日发布,包含1,881位演讲者的64,727条发言。使用V1训练数据对来自TensorFlow教程(基于卷积神经网络的小尺寸关键词识别)中的默认卷积模型进行训练,当对V1的测试集进行评估时,TopOne得分为85.4%。使用本文中所记录的数据集版本2对相同模型进行训练,产生了一个模型,该模型在从V2数据中提取的训练集中Top-One得分为88.2%。在V2数据上进行训练,但是针对V1测试集进行评估的模型得到89.7%的Top-One得分,这表明V2训练数据在精确度上比V1大大提高。图2列出了完整结果。

总而言之,该语音命令数据集对于训练和评估多种模型来说是非常有用的,而第二个版本显示了相较于原始数据的等效测试数据的改进结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音技术
    +关注

    关注

    2

    文章

    223

    浏览量

    21210
  • 识别系统
    +关注

    关注

    1

    文章

    130

    浏览量

    18687
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356

原文标题:Google发布最新「语音命令」数据集,可有效提高关键词识别系统性能

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    粒子群优化模糊神经网络在语音识别中的应用

    的收敛速度和识别率【关键词】:粒子群优化;;模糊神经网络;;语音识别【DOI】:CNKI:SUN:SSJS.0.2010-06-018【正文快照】:1引言语音识别是新
    发表于 05-06 09:05

    [讨论]提高网站关键词排名的28SEO小技巧

    提高网站关键词排名的28SEO小技巧关键词位置、密度、处理 URL中出现关键词(英文) 网页标题中出现关键词(1-3
    发表于 12-01 17:08

    TF-IDF测量文章的关键词相关性研究

    停用词的移除、大小写字母转化和词干提取。4)获取查询。获取单词权重,对于可疑文档利用TF-IDF获得关键词,并排序得到相应的关键词列表。排在前n关键词组成
    发表于 01-26 10:38

    文读懂语言识别技术原理1

    、卡内基梅隆大学(CMU)、斯坦福等学术界和工业界非常顶级的研究机构也都加入到语音识别的研究中去。其中,卡耐基梅隆大学研发出harpy语音识别系统,该系统能够识别1011
    发表于 06-28 11:27

    HanLP关键词提取算法分析详解

    顶点之间的相关性重要程度,而这就是带权图模型。2. 源码实现2.1 关键词提取流程给定若干个句子,提取关键词。而TextRank算法是 graphbased ranking model,因此需要构造
    发表于 11-05 10:41

    汽车Vin码识别系统,就用OCR识别技术

    ——通过VIN码自动解析出数据,汽车配置、参数目了然;汽车VIN码识别系统•全面——VIN数据覆盖市面上99%车型,解析出汽车参数可满足汽车后市场信息需求;汽车VIN码
    发表于 06-28 13:40

    基于Cortex-M处理器的高精度关键词识别实现

    更胜筹。关键词识别神经网络管道由于要保持“永远在线”,KWS 应用的功耗预算受到很大限制。虽然 KWS 应用也可在专用 DSP 或高性能 CPU 上运行,但更适合在 Arm Cortex-M 微控制器
    发表于 07-23 06:59

    关键词优化有哪些实用的方法

    在这里就来和大家起来分享下。关键词应该怎么去优化,这是我们的思考,然后就要想对应的方法去做优化,通常我们做
    发表于 08-11 01:19

    文本信息抽取的分阶段详细介绍

    词汇或短语,可用于精化阅读、语义查询和快速匹配等。关键词分析内容包括: 词语、词性、权重和词频统计。系统默认词汇以权重值高低排序。 同时
    发表于 09-16 15:03

    将cnc数控机床关键词优化到百度前三,询盘无忧

    `CNC加工外贸如何找客户,GOOGLE优化推广转化率更高电话CNC数控加工国外客户out了,我有妙计将cnc数控机床关键词优化到百度前三,询盘无忧百度关键词排名+网络推广代运营,两者需要
    发表于 11-18 14:17

    如何在Cortex-M处理器上实现高精度关键词识别

    如何在 Cortex-M 处理器上实现高精度关键词识别
    发表于 02-05 07:14

    可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别

    处理器可以在关键词识别应用中达到很高的精度,同时通过调整网络架构来限制内存和计算需求。DS-CNN 架构提供最高的精度,而且需要的内存和计算资源也低得多。代码、模型定义和预训练模型可从获取。我们全新的提供
    发表于 07-26 09:46

    基于HMM的语音识别系统是怎么训练

    基于HMM的语音识别系统是怎么训练的?有哪些步骤?
    发表于 12-23 06:16

    example/speech_recognition/asr样例写了关键词识别程序,关键词识别后播放提升音失败的原因?

    仿造example/speech_recognition/asr样例写了关键词识别程序,识别关键词
    发表于 03-10 06:18

    基于强度熵解决中文关键词识别

    文本的关键词识别是文本挖掘中的基本问题之一。在研究现有基于复杂网络的关键词识别方法的基础上,从整个复杂网络拓扑结构特征的信息缺失角度来考察各节点的重要程度。提出强度熵测度来量化
    发表于 11-24 09:54 7次下载
    基于强度熵解决中文<b class='flag-5'>关键词</b><b class='flag-5'>识别</b>