0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA推出多语种语音AI开放数据集与模型

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-09-23 15:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。

在全球约 7,000 种语言中,AI 语言模型所支持的语言仅占到极少数。NVIDIA 正通过新发布的数据集与模型攻克此难题。新数据集与模型可用于为 25 种欧洲语言开发高质量的语音识别与翻译 AI ,涵盖克罗地亚语、爱沙尼亚语、马耳他语等数据稀缺的语言。

借助这些工具,开发者能够轻松扩展 AI 应用,支持全球用户在生产级用例中使用快速、精准的语音技术,例如多语种聊天机器人、客服语音智能体和近实时翻译服务。具体包括:

Granary:一个庞大的开源多语种语音数据集,包含约百万小时的音频素材,其中包括近 65 万小时的语音识别数据,以及超过 35 万小时的语音翻译数据。

NVIDIA Canary-1b-v2:一个基于 Granary 数据集训练的十亿参数模型,可实现欧洲语言的高质量转录,并支持英语与二十余种语言间的互译。该模型在 Hugging Face 开放模型榜多语言语音识别评测中排名靠前。

NVIDIA Parakeet-tdt-0.6b-v3:一个精简型 6 亿参数模型,专为实时或大批量转录 Granary 支持的语言而设计。该模型是 Hugging Face 排行榜的多语言模型中吞吐量最高的(以转录音频时长除以计算时间衡量)。

Granary 相关论文已于语言处理大会 Interspeech 上发表。该数据集及全新 Canary 和 Parakeet 模型现已在 Hugging Face 平台上开放获取。

Granary 如何解决数据稀缺问题

为构建 Granary 数据集,NVIDIA 语音 AI 团队与卡内基梅隆大学和布鲁诺 · 凯斯勒基金会 (Fondazione Bruno Kessler) 的研究人员开展了协作。团队通过NVIDIA NeMo语音数据处理器 (NVIDIA NeMo Speech Data Processor) 套件驱动的创新处理管线,将未标注的音频转换成高质量的结构化数据。

该管线使研究人员无需耗费大量人力对数据进行标记,即可将公开语音数据升级成适用于 AI 训练的格式。该套件已在 GitHub 上开源。

凭借 Granary 数据集提供的整洁、即用的数据,开发者可以抢先一步开发处理欧盟 24 种官方语言的转录与翻译模型。

对于在人工标记数据集中代表性不足的欧洲语言,Granary 提供了开发更具包容性的语音技术所需的关键资源,可在减少训练数据量的同时,更加充分地反映出欧洲语言的多样性。

该团队在 Interspeech 论文中证明了:相较于其他常见的数据集,只需使用约一半量的 Granary 训练数据,即可让自动语音识别 (ASR) 和自动语音翻译 (AST) 达到目标准确率。

使用 NVIDIA NeMo 大幅加快转录速度

新发布的 Canary 和 Parakeet 模型,向开发者展示了如何利用 Granary 构建符合其目标应用需求的定制化模型。Canary-1b-v2 针对复杂任务提高了准确性,而 Parakeet-tdt-0.6b-v3 则专为需要高速、低延迟的任务设计。

通过分享 Granary 数据集及这两个模型的开发方法,NVIDIA 帮助全球语音 AI 开发者社区将该数据处理工作流应用于其他 ASR / AST 模型或更多语言领域,从而推动语音 AI 的创新。

Canary-1b-v2 采用宽松型许可证,将 Canary 系列模型支持的语言从 4 种扩展至 25 种。其转录与翻译质量可媲美 3 倍规模的模型,同时推理速度最快可提升 10 倍。

NVIDIA NeMo 是一个用于管理 AI 智能体生命周期的模块化软件套件,极大加快了语音 AI 模型的开发。该软件套件中的 NeMo Curator 帮助团队从源数据中筛选合成样本,确保仅使用高质量样本进行训练模型。团队还使用 NeMo 语音数据处理器套件完成文本转录与音频文件的对齐、数据格式转换等任务。

Parakeet-tdt-0.6b-v3 优先保障高吞吐量,单次推理即可转录 24 分钟音频片段。该模型能自动识别输入音频的语言类型,无需额外提示步骤即可完成转录。

Canary 与 Parakeet 模型均能在输出中提供精准的标点符号、规范的大小写及单词级时间戳。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110130
  • AI
    AI
    +关注

    关注

    91

    文章

    41295

    浏览量

    302667
  • 模型
    +关注

    关注

    1

    文章

    3831

    浏览量

    52281

原文标题:推动语音 AI 创新:NVIDIA 发布多语种语音 AI 开放数据集与模型

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿模型发展

    新闻摘要: ● NVIDIA Nemotron Coalition 是模型构建者和 AI 实验室的首个此类全球合作项目,致力于通过共享专业知识、数据和计算来推进
    的头像 发表于 03-17 11:14 320次阅读
    <b class='flag-5'>NVIDIA</b> 成立由全球领先 <b class='flag-5'>AI</b> 实验室组成的 Nemotron Coalition,推动<b class='flag-5'>开放</b>前沿<b class='flag-5'>模型</b>发展

    NVIDIA 扩展开放模型系列,推动代理式、物理和医疗 AI 下一阶段发展

    NVIDIA BioNeMo 平台的一部分,Proteina-Complexa 模型可加速蛋白质药物研发——同时推出全新开放数据
    的头像 发表于 03-17 09:18 523次阅读
    <b class='flag-5'>NVIDIA</b> 扩展<b class='flag-5'>开放</b><b class='flag-5'>模型</b>系列,推动代理式、物理和医疗 <b class='flag-5'>AI</b> 下一阶段发展

    NVIDIA推出代理式AI蓝图与电信推理模型

    借助全新开源大型电信模型NVIDIA Blueprint,电信运营商能够利用自有数据训练 AI 智能体,构建自主网络。
    的头像 发表于 03-06 17:37 3095次阅读

    利用NVIDIA Nemotron开放模型构建智能文档处理系统

    基于 NVIDIA Nemotron 开放模型AI 驱动文档智能,增强科学研究、金融和法律等领域工作流。
    的头像 发表于 02-25 11:21 701次阅读

    NVIDIA在CES 2026发布全新开放模型数据和工具

    为扩展开放模型生态,NVIDIA 发布全新开放模型数据和工具,推动各行业
    的头像 发表于 01-09 10:42 742次阅读

    NVIDIA 推出 Alpamayo 系列开源 AI 模型与工具,加速安全可靠的推理型辅助驾驶汽车开发

    的仿真工具和数据。 l Alpamayo 1、AlpaSim 和物理 AI 开放数据可为开发
    的头像 发表于 01-06 09:40 521次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b> Alpamayo 系列开源 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>与工具,加速安全可靠的推理型辅助驾驶汽车开发

    NVIDIA 推出 Nemotron 3 系列开放模型

    token 数。 ● Nemotron 通过先进的强化学习技术以及大规模并行多环境后训练,实现了卓越的准确率。 ● NVIDIA 率先推出整套前沿的开放模型、训练
    的头像 发表于 12-16 09:27 843次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b> Nemotron 3 系列<b class='flag-5'>开放</b><b class='flag-5'>模型</b>

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA)
    的头像 发表于 12-13 09:50 1563次阅读

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI
    的头像 发表于 12-01 09:25 1463次阅读

    给智能门锁“装个移动硬盘”:广州唯创电子WTV语音芯片外置SPI Flash方案破解多语种语音存储困局

    厂家,以其创新的WTV系列语音芯片外置SPIFlash方案,如同给门锁配备了一个“海量移动硬盘”,彻底破解了智能门锁的多语种语音存储困局。一、行业痛点:智能门锁的“
    的头像 发表于 11-17 07:43 919次阅读
    给智能门锁“装个移动硬盘”:广州唯创电子WTV<b class='flag-5'>语音</b>芯片外置SPI Flash方案破解<b class='flag-5'>多语种</b><b class='flag-5'>语音</b>存储困局

    云知声多项业务营收大涨

    依托山海大模型,云知声不断开拓阵地,开发了面向东盟等海外市场和国内方言市场的语音模型模型显著提升了在多语种、多方言环境下的
    的头像 发表于 09-10 15:44 840次阅读

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1378次阅读

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工
    的头像 发表于 08-20 14:21 1037次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    、高效会议记录、多语种即时翻译等核心领域实现重大技术突破,致力于为终端用户带来更自然、高效、私密的语音交互体验。
    的头像 发表于 08-04 11:43 1778次阅读

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASR、TTS等技术模块,构建覆盖泰语、俄语、韩语、日语等多语种语音交互解决方案,助力其海外车型实现无障碍人
    的头像 发表于 07-11 14:00 1319次阅读