NVIDIA推出多语种语音AI开放数据集与模型-电子发烧友网

新发布的 Granary 数据集包含约 100 万小时音频，可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。

在全球约 7,000 种语言中，AI 语言模型所支持的语言仅占到极少数。NVIDIA 正通过新发布的数据集与模型攻克此难题。新数据集与模型可用于为 25 种欧洲语言开发高质量的语音识别与翻译 AI ，涵盖克罗地亚语、爱沙尼亚语、马耳他语等数据稀缺的语言。

借助这些工具，开发者能够轻松扩展 AI 应用，支持全球用户在生产级用例中使用快速、精准的语音技术，例如多语种聊天机器人、客服语音智能体和近实时翻译服务。具体包括：

Granary：一个庞大的开源多语种语音数据集，包含约百万小时的音频素材，其中包括近 65 万小时的语音识别数据，以及超过 35 万小时的语音翻译数据。

NVIDIA Canary-1b-v2：一个基于 Granary 数据集训练的十亿参数模型，可实现欧洲语言的高质量转录，并支持英语与二十余种语言间的互译。该模型在 Hugging Face 开放模型榜多语言语音识别评测中排名靠前。

NVIDIA Parakeet-tdt-0.6b-v3：一个精简型 6 亿参数模型，专为实时或大批量转录 Granary 支持的语言而设计。该模型是 Hugging Face 排行榜的多语言模型中吞吐量最高的（以转录音频时长除以计算时间衡量）。

Granary 相关论文已于语言处理大会 Interspeech 上发表。该数据集及全新 Canary 和 Parakeet 模型现已在 Hugging Face 平台上开放获取。

Granary 如何解决数据稀缺问题

为构建 Granary 数据集，NVIDIA 语音 AI 团队与卡内基梅隆大学和布鲁诺 · 凯斯勒基金会 (Fondazione Bruno Kessler) 的研究人员开展了协作。团队通过NVIDIA NeMo语音数据处理器 (NVIDIA NeMo Speech Data Processor) 套件驱动的创新处理管线，将未标注的音频转换成高质量的结构化数据。

该管线使研究人员无需耗费大量人力对数据进行标记，即可将公开语音数据升级成适用于 AI 训练的格式。该套件已在 GitHub 上开源。

凭借 Granary 数据集提供的整洁、即用的数据，开发者可以抢先一步开发处理欧盟 24 种官方语言的转录与翻译模型。

对于在人工标记数据集中代表性不足的欧洲语言，Granary 提供了开发更具包容性的语音技术所需的关键资源，可在减少训练数据量的同时，更加充分地反映出欧洲语言的多样性。

该团队在 Interspeech 论文中证明了：相较于其他常见的数据集，只需使用约一半量的 Granary 训练数据，即可让自动语音识别 (ASR) 和自动语音翻译 (AST) 达到目标准确率。

使用 NVIDIA NeMo 大幅加快转录速度

新发布的 Canary 和 Parakeet 模型，向开发者展示了如何利用 Granary 构建符合其目标应用需求的定制化模型。Canary-1b-v2 针对复杂任务提高了准确性，而 Parakeet-tdt-0.6b-v3 则专为需要高速、低延迟的任务设计。

通过分享 Granary 数据集及这两个模型的开发方法，NVIDIA 帮助全球语音 AI 开发者社区将该数据处理工作流应用于其他 ASR / AST 模型或更多语言领域，从而推动语音 AI 的创新。

Canary-1b-v2 采用宽松型许可证，将 Canary 系列模型支持的语言从 4 种扩展至 25 种。其转录与翻译质量可媲美 3 倍规模的模型，同时推理速度最快可提升 10 倍。

NVIDIA NeMo 是一个用于管理 AI 智能体生命周期的模块化软件套件，极大加快了语音 AI 模型的开发。该软件套件中的 NeMo Curator 帮助团队从源数据中筛选合成样本，确保仅使用高质量样本进行训练模型。团队还使用 NeMo 语音数据处理器套件完成文本转录与音频文件的对齐、数据格式转换等任务。

Parakeet-tdt-0.6b-v3 优先保障高吞吐量，单次推理即可转录 24 分钟音频片段。该模型能自动识别输入音频的语言类型，无需额外提示步骤即可完成转录。

Canary 与 Parakeet 模型均能在输出中提供精准的标点符号、规范的大小写及单词级时间戳。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉