0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用NVIDIA NeMo生成高质量的语音识别标签

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-27 09:15 次阅读

使用 NVIDIA NeMo 和 标签工作室 中的自动语音识别( ASR )模型处理音频数据时,可以节省时间并产生更准确的结果。

NVIDIA NeMo 提供了可重用的神经模块,使得创建新的神经网络架构变得容易,包括 ASR 的预构建模块和现成模型。借助 NVIDIA NeMo 的强大功能,您可以从预训练语音识别模型中获得音频转录。添加 labelstudio 及其开源数据标记功能,您可以进一步提高转录质量。

解决方案

poYBAGJomUSASBfSAAAy2POsRYU582.jpg

图 1 使用 Label Studio 和 NeMo 注释和更正转录本的 ASR 工作流。

按照本文中的步骤使用 Label Studio 设置 NVIDIA NeMo ASR ,以生成高质量的音频转录本。

连接 NVIDIA NeMo 模型,在 Label Studio 中自动转录音频文件。

设置音频转录项目。

从 Label Studio 验证和导出修订的音频转录本。

微调 NeMo ASR 模型与修改后的音频转录从标签工作室。

先决条件

开始之前,请确保您拥有以下资源:

音频数据文件。 此音频 MIG 可以是客户服务电话、电话订单、销售对话的录音,也可以是其他与人交谈的录音。音频文件必须采用以下文件格式之一:

WAV

AIFF

MP3

AU

FLAC

已安装 Label Studio 。 在本地计算机或云服务器上使用首选方法安装 Label Studio 。有关更多信息,请参阅 Label Studio 文档中的 Quickstart 。

NeMo 工具箱已安装

免费音频数据

如果您没有任何音频数据,可以使用示例数据集或历史音频数据集:

LJ 语音数据集 是非小说类书籍段落的公共域数据集。

Librispeech 还提供了一个 基于开放 SLR 的开源 ASR 语料库 。

您可以使用许多其他 ASR 数据集。有关详细信息,请参阅 数据集 – 简介 。您还可以使用国会图书馆网站上的公共域录音集,如 美国棒球运动员访谈录 。

确定要转录的音频后,就可以开始处理它了。

安装 Label Studio ML 后端

安装 Label Studio 后,请安装 Label Studio 机器学习后端。从命令行运行以下命令:

git clone https://github.com/heartexlabs/label-studio-ml-backend 

设置环境:

cd label-studio-ml-backend

# Install label-studio-ml and its dependencies
pip install -U -e .

# Install the nemo example dependencies
pip install -r label_studio_ml/examples/requirements.txt

连接 NVIDIA NeMo 模型,在 Label Studio 中自动转录音频文件

要使用预先训练的 ASR 模型的预测对数据进行预标记,请在 Label Studio 中将 NeMo 工具箱设置为机器学习后端。 Label Studio 机器学习后端允许您使用预先训练的模型来预标记数据。

Label Studio 包括使用 利用 NGC 云中的 NeMo 开发的预训练 QuartzNet15x5 模型 的 一个例子 ,但是如果另一个模型更适合,您可以用您的数据设置一个不同的模型。有关更多信息,请参阅 NeMo 提供的 ASR 型号列表 。

在命令行中,将 NeMo 设置为机器学习后端,并使用该模型启动一个新的 Label Studio 项目。

安装 NeMo 工具箱 在 Docker 容器中或使用 pip 。

下载 NeMo ASR 模型。提供的 Label Studio 示例脚本从 NGC 云下载预先训练的 QuartzNet 模型。要使用不同的模型,请从 NGC 下载该模型。

从命令行启动 Label Studio 机器学习后端。

label-studio-ml init my_model --from label_studio_ml/examples/nemo/asr.py

启动机器学习后端。默认情况下,模型在本地主机上以端口 9090 启动。

label-studio-ml start my_model

用模型启动 Label Studio 。

label-studio start my_project --ml-backends http://localhost:9090

设置音频转录项目

启动 Label Studio 后,导入音频数据并设置正确的模板来配置标签。 VZX19 是自动语音识别的最佳选择,它使音频数据的注释变得容易。

打开 Label Studio ,导入数据,然后选择模板。

选择 Import 并以纯文本或 JSON 文件的形式导入音频数据,这些文件引用在线存储(如 Amazon S3 )中托管的音频文件的有效 url 。

2 从 Tasks 列表中,选择 Settings 。

3 在 标签界面 选项卡上,浏览模板并选择 自动语音识别 模板。

4 选择 Save 。

验证并输出模型预测

作为注释器,检查任务界面上音频数据的任务并验证。如有必要,纠正 NeMo 语音模型预测的转录本。

从 Label Studio 中的任务列表中,选择 Label 。

对于每个音频样本,聆听音频并回顾 NeMo 模型产生的转录,作为预标记过程的一部分。

如果成绩单中有任何单词不正确,请更新。

保存对成绩单的更改。选择 Submit 提交成绩单并查看下一个音频样本。

接下来,按照 NVIDIA NVIDIA 文档中的 NeMo ASR 集合 所述,以 NeMo 模型所期望的正确格式从 Label Studio 导出完成的音频转录本。

要导出完成的音频,请执行以下操作:

从 Label Studio 中的任务列表中,选择 Export 。

选择名为 ASR_MANIFEST 的音频转录 JSON 格式。

有关 Label Studio 中可用导出格式的详细信息,请参阅 从 Label Studio 导出结果 。

使用高质量的成绩单来微调您的 ML 模型

当您处理完音频并调整完转录的文本后,剩下的是音频转录本,您可以用来重新培训 NeMo 中包含的 ASR 模型。 Label Studio 生成与 NeMo 培训完全兼容的注释。

要更新 QuartzNet 模型检查点,您可以在几行代码中完成,从头开始训练模型,或者使用 PyTorch Lightning 。例子也可以在 NeMo Jupyter 笔记本中找到。

通过同时使用 Label Studio 和 NeMo ,您可以节省从头开始处理每个音频文件的时间 NeMo 可以立即为您提供高度准确的预测,而 Label Studio 可以帮助您实现完美的预测 今天就试试 !

关于作者

Nikolai Liubimov是Heartex的CTO。 完成博士学位后 他在CS担任机器学习研究员,后来进入该行业,并花了10年的时间将深度学习技术应用于现实世界中的问题。 这项经验为当前缺少哪些工具提供了宝贵的见解,从而创建了一家初创公司来帮助数据科学和机器学习工程团队构建和改进其ML模型。

Sarah Moir是Heartex的产品内容和教育主管,为Heartex的数据注释和标签解决方案撰写文档,博客文章和教育教程。 萨拉(Sarah)在过去的八年中一直是数据和安全领域的技术作家,并且对数据分析,机器学习和编写充满热情。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4573

    浏览量

    101602
  • 计算机
    +关注

    关注

    19

    文章

    6627

    浏览量

    84320
  • 服务器
    +关注

    关注

    12

    文章

    8072

    浏览量

    82407
收藏 人收藏

    评论

    相关推荐

    北斗芯片产业的高质量发展之路

    高质量发展是全面建设社会主义现代化国家的首要任务”,二十大报告中对高质量发展有着明确的论断和要求。在2023年的全国两会中还指出,加快实现高水平科技自立自强,是推动高质量发展的必由之路。中国卫星
    的头像 发表于 03-15 14:03 125次阅读
    北斗芯片产业的<b class='flag-5'>高质量</b>发展之路

    富捷电子被授予“高质量发展突出贡献奖”

    在近日举行的马鞍山新区高质量发展表彰大会上,富捷电子在推动地区经济发展中的卓越贡献,被授予“高质量发展突出贡献奖”。
    的头像 发表于 02-23 15:16 267次阅读

    稳中创新•产业升级•高质量发展 | 联诚发高质量发展工作推进会议召开

    2月21日下午,联诚发LCF以“稳中创新•产业升级•高质量发展”为主题的企业高质量发展工作推进大会在联诚发深圳总部隆重召开。擂起奋进催征的战鼓,争分夺秒抢抓宝贵春光,明确企业重点目标任务,全力以赴
    的头像 发表于 02-22 11:33 175次阅读
    稳中创新•产业升级•<b class='flag-5'>高质量</b>发展 | 联诚发<b class='flag-5'>高质量</b>发展工作推进会议召开

    捷易科技出席广东省韶关市高质量发展大会

    ABSTRACT摘要2月19日,2024年韶关市高质量发展招商大会在韶关举行,来自政府、科技、企业各界专家代表共同探讨韶关高质量发展。捷易科技总经理韩运恒出席大会。JAEALOT2024年2月19
    的头像 发表于 02-22 08:25 175次阅读
    捷易科技出席广东省韶关市<b class='flag-5'>高质量</b>发展大会

    如何高质量完成修复真空泵轴磨损问题

    电子发烧友网站提供《如何高质量完成修复真空泵轴磨损问题.docx》资料免费下载
    发表于 01-03 17:15 0次下载

    卓越领航!广和通获评“2023高质量发展领军企业”

    广和通要闻 11月28日,以“协同新发展、引领新示范”为主题的第四届高质量发展高峰论坛暨2023高质量发展领军企业、领军人物颁奖盛典顺利举办。大会揭晓了“2023高质量发展领军企业、领军人物”榜单
    的头像 发表于 11-29 18:00 240次阅读
    卓越领航!广和通获评“2023<b class='flag-5'>高质量</b>发展领军企业”

    高质量LTE网络改变传统天线技术

    电子发烧友网站提供《高质量LTE网络改变传统天线技术.pdf》资料免费下载
    发表于 11-10 15:25 0次下载
    <b class='flag-5'>高质量</b>LTE网络改变传统天线技术

    高质量C、C++编程指南

    林锐-高质量C、C++编程指南电子档
    发表于 10-07 07:14

    生成高质量 3D 网格,从重建到生成式 AI

    法有很多优点,包括支持现有的软件包、高级硬件加速,以及支持物理模拟。然而,并非所有网格都是相同的,只有高质量的网格才能实现这些优点。 NVIDIA Research 提出了一种名为“FlexiCubes”的新方法,它可以在 3D 工作流中
    的头像 发表于 08-17 19:15 487次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>高质量</b> 3D 网格,从重建到<b class='flag-5'>生成</b>式 AI

    何为高质量的代码?如何写出高质量代码?

    懂得“数据结构与算法” 写出高效的代码,懂得“设计模式”写出高质量的代码。
    发表于 08-02 09:44 441次阅读
    何为<b class='flag-5'>高质量</b>的代码?如何写出<b class='flag-5'>高质量</b>代码?

    新发展格局下 磁元件企业如何实现高质量发展

    高质量发展浪潮下,磁性元器件行业面临转型问题,如何实现产业高质量发展?华东磁元件峰会搭建行业沟通桥梁,将为磁元件行业实现高质量发展提供一份具有参考意义的“答案”。 高质量发展的奋进号
    的头像 发表于 07-11 11:50 384次阅读
    新发展格局下 磁元件企业如何实现<b class='flag-5'>高质量</b>发展

    NVIDIA 人工智能开讲 | 对话式 AI 开发利器 — NVIDIA NeMo

    ”两大音频 APP上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! NVIDIA NeMo 是一个用于构建先进的对话式 AI 模型的框架,它内置集成了自动
    的头像 发表于 07-10 20:25 346次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | 对话式 AI 开发利器 — <b class='flag-5'>NVIDIA</b> <b class='flag-5'>NeMo</b>

    清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容

    将 Imagen 生成的照片(下图静态图)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下图动态图)进行对比。有网友感慨:短短一年时间,高质量生成
    的头像 发表于 05-29 10:02 606次阅读
    清华朱军团队提出ProlificDreamer:直接文本<b class='flag-5'>生成</b><b class='flag-5'>高质量</b>3D内容

    语音合成数据的重要性:训练高质量语音合成模型的关键

    语音合成是一种将文本转换为语音的技术,它在智能客服、智能助手、语音广告等多个领域有着广泛的应用。而要实现高质量语音合成,就需要大量的
    的头像 发表于 05-15 09:27 634次阅读

    语音识别技术发展的驱动力:语音数据的采集和处理

    语音识别技术是一项基于人工智能的技术,通过计算机对人的语音进行分析和处理,将语音转化成文字,以此达到自动化处理的目的。语音
    的头像 发表于 05-15 09:27 721次阅读