0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Riva实现将语音转录成文本

星星科技指导员 来源:NVIDIA 作者:About Sirisha Rella, 2022-03-31 17:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

每天,电信、金融和统一通信即服务( UCaaS )等行业都会产生数百万分钟的音频。这些音频会议记录可以转录,以便为呼叫中心代理提供实时建议,从客户呼叫记录中提取见解,或在视频会议中生成实时字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.

图 1 。人工智能在工业中的应用

自动语音识别使您能够将语音转录成文本。生成高质量的文字记录是一项挑战,因为这些技能需要理解特定于行业的术语、数百到数千分钟特定于领域的培训音频以及实时运行的管道。 NVIDIA Riva 语音识别是一项技术,可为跨行业的几个常见用例提供世界级的实时准确度。

在这篇文章中,我们讨论 Riva 语音识别。后续文章将讨论如何定制语音识别模型,并将其作为优化技能进行部署:

Customizing Speech Recognition Models to Your Domain Using TAO Toolkit

Deploying Speech Recognition Models to Production Using Riva

Riva 语音识别

Riva 是 GPU 加速的 AI 语音 SDK ,用于实时转录和虚拟助理等对话 AI 应用程序。 Riva 具有以下优点:

NGC 中经过预训练的最先进的语音模型

没有编码工具,例如TAO Toolkit,用于在自定义数据集上微调这些模型

用于高性能推理的优化语音识别和语音合成管道

Riva 下面的模型是基于数百到数千小时的开放和真实世界数据进行训练的,这些数据来自电信、金融、医疗保健和 NVIDIA 超级计算机上的教育等行业。数据集样本还来自嘈杂的环境、自发的语音对话、多种英语口音和不同的采样率。所有这些属性都有助于生成噪声鲁棒、高质量的转录。

Riva 语音识别技能在各种真实世界的用例数据集上进行评估,包括视频会议、联络中心、播客和技术视频。您可以在云中、数据中心和边缘部署这些技能。

Riva 语音识别管道在保持准确性的同时,为新的最先进的体系结构提供支持。图 2 显示了在过去 3 年中,通过新的模型体系结构、训练方法以及最新的基于 TensorRT 和 GPU 的优化,语音准确性的提高。

Riva ASR accuracy improved by 50% in 3 years.

图 2 。 Riva ASR 精度改进

使用 Riva ,您可以在流式或批处理模式下以实时延迟快速部署和扩展到数百和数千个并发流。

关于作者

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师,负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115572
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    什么是语音芯片串口AT指令?实现智能语音交互的核心技术详解

    什么是AT指令AT指令是一套基于串行通信接口的标准化指令集,专门用于声音播放芯片与其他设备之间的数据传输和控制操作。这种通信协议通过简单的文本命令格式,实现了对语音
    的头像 发表于 11-10 12:53 202次阅读
    什么是<b class='flag-5'>语音</b>芯片串口AT指令?<b class='flag-5'>实现</b>智能<b class='flag-5'>语音</b>交互的核心技术详解

    今日看点:中国电信成为业内首家实现北斗语音消息的运营商;美创企Substrate研发新型光刻机

    算法”,为语音极速瘦身,省去用户短信文字输入的繁琐,实现 20 汉字文本支持 6 秒语音消息直接传输,未来,中国电信将以“北斗 + 天通”开启“天地一体”全新场景,
    发表于 10-31 10:48 1350次阅读

    语音报警器:TTS语音播报,云平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本语音)技术的智能设备。清晰、准确地用人类语言播报报警原因、位置、状态等具体信息。 工作原理 文本
    的头像 发表于 10-29 16:31 459次阅读

    NVIDIA推出多语种语音AI开放数据集与模型

    新发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
    的头像 发表于 09-23 15:34 607次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在 NVIDIA 系统上至高达到每
    的头像 发表于 08-15 20:34 1967次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘加速OpenAI gpt-oss模型部署,<b class='flag-5'>实现</b>150万TPS推理

    语音输出模块是什么?自控语音播报

    语音输出模块(VoiceOutputModule)是一种将数字信号或文本信息转换为人类可听语音的硬件/软件组件。相当于设备的“嘴巴”,让机器能够通过声音与人进行交互。 一、工作原理 1.输入接收
    的头像 发表于 08-13 15:20 621次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、实时语音
    的头像 发表于 08-04 11:43 1378次阅读

    Air8000 TTS开源,语音合成从此“零距离”!

    文本语音)——是一种将书面文本转换为人类可听语音的技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现
    的头像 发表于 07-03 16:33 468次阅读
    Air8000 TTS开源,<b class='flag-5'>语音</b>合成从此“零距离”!

    怎么用labview实现语音转文字

    请问怎么用labview实现语音转文字
    发表于 07-01 16:27

    【CW32模块使用】语音合成播报模块

    。SYN6288E 通过异步串 口(UART)通讯方式,接收待合成的文本数据,实现文本语音(或 TTS 语音)的转换。
    的头像 发表于 03-29 17:25 991次阅读
    【CW32模块使用】<b class='flag-5'>语音</b>合成播报模块

    把树莓派打造成识别文本的“神器”!

    。RaspberryPi也能实现这种文本识别,而且并不困难。我们可以从静态图像或摄像头的实时流中读取文本。在本教程中,我们将探讨如何使用RaspberryPi实现
    的头像 发表于 03-25 09:30 758次阅读
    把树莓派打造成识别<b class='flag-5'>文本</b>的“神器”!

    网络语音控制器的原理与应用

    随着科技的飞速发展,网络语音控制器作为一种新兴的技术产品,已经在各个领域展现出了其巨大的应用潜力和价值。网络语音控制器是一种人机系统中以语言驱动的控制器,通过语音识别系统实现用户的
    的头像 发表于 02-20 18:16 819次阅读

    TTS语音播报模块简介

    在现代科技日新月异的时代,语音技术作为人工智能领域的重要分支,正以前所未有的速度改变着我们的生活方式。其中,TTS(Text To Speech,文本语音)语音播报模块作为连接数字世
    的头像 发表于 02-18 16:16 1894次阅读

    联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超级芯片,将应用于NVIDIA 的个人AI超级计算机NVIDIA® Project DIGIT
    的头像 发表于 01-07 16:26 834次阅读

    HarmonyOS NEXT 应用开发练习:AI智能语音播报

    一、DEMO思路 在这个HarmonyOS NEXT原生应用DEMO中,我们将使用ArkTS开发语言创建一个简单的AI智能语音播报应用。 该应用能够接收用户输入的文本,并使用TTS
    发表于 01-06 15:33