0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Riva实现将语音转录成文本

星星科技指导员 来源:NVIDIA 作者:About Sirisha Rella, 2022-03-31 17:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

每天,电信、金融和统一通信即服务( UCaaS )等行业都会产生数百万分钟的音频。这些音频会议记录可以转录,以便为呼叫中心代理提供实时建议,从客户呼叫记录中提取见解,或在视频会议中生成实时字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.

图 1 。人工智能在工业中的应用

自动语音识别使您能够将语音转录成文本。生成高质量的文字记录是一项挑战,因为这些技能需要理解特定于行业的术语、数百到数千分钟特定于领域的培训音频以及实时运行的管道。 NVIDIA Riva 语音识别是一项技术,可为跨行业的几个常见用例提供世界级的实时准确度。

在这篇文章中,我们讨论 Riva 语音识别。后续文章将讨论如何定制语音识别模型,并将其作为优化技能进行部署:

Customizing Speech Recognition Models to Your Domain Using TAO Toolkit

Deploying Speech Recognition Models to Production Using Riva

Riva 语音识别

Riva 是 GPU 加速的 AI 语音 SDK ,用于实时转录和虚拟助理等对话 AI 应用程序。 Riva 具有以下优点:

NGC 中经过预训练的最先进的语音模型

没有编码工具,例如TAO Toolkit,用于在自定义数据集上微调这些模型

用于高性能推理的优化语音识别和语音合成管道

Riva 下面的模型是基于数百到数千小时的开放和真实世界数据进行训练的,这些数据来自电信、金融、医疗保健和 NVIDIA 超级计算机上的教育等行业。数据集样本还来自嘈杂的环境、自发的语音对话、多种英语口音和不同的采样率。所有这些属性都有助于生成噪声鲁棒、高质量的转录。

Riva 语音识别技能在各种真实世界的用例数据集上进行评估,包括视频会议、联络中心、播客和技术视频。您可以在云中、数据中心和边缘部署这些技能。

Riva 语音识别管道在保持准确性的同时,为新的最先进的体系结构提供支持。图 2 显示了在过去 3 年中,通过新的模型体系结构、训练方法以及最新的基于 TensorRT 和 GPU 的优化,语音准确性的提高。

Riva ASR accuracy improved by 50% in 3 years.

图 2 。 Riva ASR 精度改进

使用 Riva ,您可以在流式或批处理模式下以实时延迟快速部署和扩展到数百和数千个并发流。

关于作者

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师,负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110094
  • 语音识别
    +关注

    关注

    39

    文章

    1814

    浏览量

    116226
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    思泽远科技语音芯片指南:在嵌入式产品中 融入语音播报

    当前主流的语音芯片方案,并特别针对动态文本播报场景给出TTS(Text-to-Speech,文本语音)功能的替代选型建议及横向对比。 一、明确语音
    的头像 发表于 04-14 09:17 392次阅读
    思泽远科技<b class='flag-5'>语音</b>芯片指南:在嵌入式产品中 融入<b class='flag-5'>语音</b>播报

    基于Arm架构的NVIDIA DGX Spark平台构建离线语音助手系统

    基于云的人工智能 (AI) 占据了大多数关注焦点,但真正实现响应和隐私保护的交互则发生在边缘侧。本文将展示如何基于 Arm 架构的 NVIDIA DGX Spark 平台,构建一个完全离线、实时
    的头像 发表于 04-09 15:51 208次阅读
    基于Arm架构的<b class='flag-5'>NVIDIA</b> DGX Spark平台构建离线<b class='flag-5'>语音</b>助手系统

    一文了解语音AI的运作方式

    语音 AI 是对话式 AI 的一个子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和文本
    的头像 发表于 02-27 16:10 500次阅读
    一文了解<b class='flag-5'>语音</b>AI的运作方式

    Caterpillar借助NVIDIA技术推动重工业领域智能化升级

    在 CES 上,Caterpillar 展示了其如何整合 NVIDIA Jetson Thor、语音模型等多项 NVIDIA 技术,为重工业领域带来全新的智能化体验。
    的头像 发表于 01-09 10:37 612次阅读

    超擎数智为您深度解析NVIDIA Quantum-X800 InfiniBand平台

    NVIDIA
    专精特新
    发布于 :2026年01月08日 19:47:03

    什么是语音芯片串口AT指令?实现智能语音交互的核心技术详解

    什么是AT指令AT指令是一套基于串行通信接口的标准化指令集,专门用于声音播放芯片与其他设备之间的数据传输和控制操作。这种通信协议通过简单的文本命令格式,实现了对语音
    的头像 发表于 11-10 12:53 611次阅读
    什么是<b class='flag-5'>语音</b>芯片串口AT指令?<b class='flag-5'>实现</b>智能<b class='flag-5'>语音</b>交互的核心技术详解

    今日看点:中国电信成为业内首家实现北斗语音消息的运营商;美创企Substrate研发新型光刻机

    算法”,为语音极速瘦身,省去用户短信文字输入的繁琐,实现 20 汉字文本支持 6 秒语音消息直接传输,未来,中国电信将以“北斗 + 天通”开启“天地一体”全新场景,
    发表于 10-31 10:48 1592次阅读

    语音报警器:TTS语音播报,云平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本语音)技术的智能设备。清晰、准确地用人类语言播报报警原因、位置、状态等具体信息。 工作原理 文本
    的头像 发表于 10-29 16:31 945次阅读

    NVIDIA推出多语种语音AI开放数据集与模型

    新发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
    的头像 发表于 09-23 15:34 1118次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在 NVIDIA 系统上至高达到每
    的头像 发表于 08-15 20:34 2474次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘加速OpenAI gpt-oss模型部署,<b class='flag-5'>实现</b>150万TPS推理

    语音输出模块是什么?自控语音播报

    语音输出模块(VoiceOutputModule)是一种将数字信号或文本信息转换为人类可听语音的硬件/软件组件。相当于设备的“嘴巴”,让机器能够通过声音与人进行交互。 一、工作原理 1.输入接收
    的头像 发表于 08-13 15:20 1119次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、实时语音
    的头像 发表于 08-04 11:43 1742次阅读

    Air8000 TTS开源,语音合成从此“零距离”!

    文本语音)——是一种将书面文本转换为人类可听语音的技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现
    的头像 发表于 07-03 16:33 726次阅读
    Air8000 TTS开源,<b class='flag-5'>语音</b>合成从此“零距离”!

    怎么用labview实现语音转文字

    请问怎么用labview实现语音转文字
    发表于 07-01 16:27

    KITPROG烧录器怎么烧录成jlink的使用swd?

    KITPROG烧录器怎么烧录成jlink的使用swd 谢谢
    发表于 05-22 07:12