0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Riva自定义文本创建语音界面

星星科技指导员 来源:NVIDIA 作者:About Gordana Neskovi 2022-03-31 16:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型,为企业在全球部署语音 AI 应用提供了动力。此外,企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。

NVIDIA Riva 是一款 GPU 加速语音 AI SDK ,用于开发实时应用程序,如实时字幕、向基于文本的聊天机器人添加语音,以及在呼叫中心生成实时转录。为了便于实施, Riva 在 NGC 目录中提供了高度精确的预训练模型。

和 TAO 工具包 ,这些模型可以为任何行业定制,包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化,可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。

Riva 发布亮点包括

西班牙语、德语和俄语的世界级语音识别技能。

可定制的文本到语音管道,用于表达性互动。

TAO 工具包的低代码微调工作流。

多种语言的自动语音识别

从呼叫中心到虚拟助手,每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。

图 1:NVIDIA Riva 世界级的自动语音识别系统有英语、西班牙语、德语和俄语版本。

非英语自动语音识别模型是在各种开源数据集(如 Mozilla Common Voice )以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度,并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上,这些模型在多个行业应用中提供了世界级的准确性。

可定制的文本到语音管道

为了让客户享受逼真的对话,语音应用程序必须提供类似人类的表情。使用 FASTROPE ,NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如,在推理过程中,开发人员可以使用 SSML 标签改变语音音调和速度。

图 2:NVIDIA Riva 提供了可定制的文本到语音管道,用于更具表现力的交互。

最新的最先进的模型,比如里瓦的 Fastpitch ,帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。

关于作者

About Gordana Neskovic

Gordana Neskovic 是AI/DL产品营销团队的成员,负责 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5685

    浏览量

    110111
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302571
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用Python/MyHDL创建自定义FPGA IP

    使用 Python/MyHDL 创建自定义 FPGA IP,与 Vivado 集成,并通过 PYNQ 进行控制——实现软件上的简单硬件设计。
    的头像 发表于 04-09 09:53 217次阅读
    使用Python/MyHDL<b class='flag-5'>创建</b><b class='flag-5'>自定义</b>FPGA IP

    MCUXpresso SDK创建自定义清单

    by standardizing SDK configurations. 本指南将介绍创建和使用自定义清单来定制 MCUXpresso SDK 设置的过程,确保您的开发环境针对性能和可维护性进行优化
    发表于 04-07 07:11

    极海APM32F427如何实现自定义USB HID设备与PC进行通信

    最近需要使用到 APM32F427 枚举成Custom HID设备进行用户自定义通信,但是官方的例程只有提供的HID枚举为鼠标或者键盘类型的设备。这里记录一下,怎么使用Geehy官方的USB中间件,实现自定义的USB HID设备进行用户通信。
    的头像 发表于 03-30 09:30 2763次阅读
    极海APM32F427如何实现<b class='flag-5'>自定义</b>USB HID设备与PC进行通信

    如何为 Vision Five 2 编译自定义 Linux 内核?

    Vision Five 2 的 Debian 用户指南只提供了半页关于如何编译自己的内核的相当稀疏的内容。仅从该文档中,我无法制作我的自定义内核。那里的信息似乎相当不完整。如果有人能提供一些
    发表于 02-24 07:44

    电能质量监测装置可自定义监测时段吗?

    电能质量监测装置普遍支持自定义监测时段,现代中高端装置还具备分时差异化监测与灵活触发能力,可按时间、事件或混合策略定制采集与存储,兼顾精度、效率与存储成本。 一、自定义监测时段的核心实现方式 1.
    的头像 发表于 12-10 16:49 1173次阅读

    无图形界面模式下自定义检查工具的应用

    此前文章已介绍 ANSA 中的自定义检查工具。本文将探讨该功能在无图形界面(No-GUI)模式下的应用,旨在满足标准化工作流程的需求,适用于需要高度自动化的前处理场景。通过集成自定义检查,用户可实现工作流程的高效自动化运行。
    的头像 发表于 11-30 14:13 775次阅读
    无图形<b class='flag-5'>界面</b>模式下<b class='flag-5'>自定义</b>检查工具的应用

    采用汇编指示符来使用自定义指令

    具体实现 1、采用.word .half .dword等汇编指示符直接插入自定义指令,这种方法需要自己指定寄存器。其中.word为插入一个字的数据即32位,.half为插入半字即16位
    发表于 10-28 06:02

    零代码实现茶吧机自定义语音控制定制

    零代码实现茶吧机自定义语音控制定制 前言 茶吧机集成离线语音控制,核心是通过自然语音交互替代手动操作实现全方位体验升级 —— 既无需起身即可完成烧水、调温等操作,省去传统多步按键调试的
    的头像 发表于 10-17 16:43 1405次阅读
    零代码实现茶吧机<b class='flag-5'>自定义</b><b class='flag-5'>语音</b>控制定制

    如何使用SDK进行自定义音频播放功能

    在上一篇文章安信可离线语音模组 VC-01、VC-02 系列教程 【二次开发篇】自定义音频替换失败过程中,简要概述了res_build_tool.py 文件, 其主要的作用就是将音频文件进行转换,从而使编译固件的时候能够将音频文件编译到BIN中,然后在各项事件触发的时候实
    的头像 发表于 09-25 15:52 4307次阅读
    如何使用SDK进行<b class='flag-5'>自定义</b>音频播放功能

    LOTO示波器自定义解码功能—CANFD解码

    LOTO示波器软件更新了自定义解码功能,并在bilibili上传了演示视频,视频链接: https://www.bilibili.com/video/BV1wq3ezjEjQ
    的头像 发表于 07-11 10:34 1193次阅读
    LOTO示波器<b class='flag-5'>自定义</b>解码功能—CANFD解码

    大彩讲堂:VisualTFT软件如何自定义圆形进度条

    VisualTFT软件如何自定义圆形进度条
    的头像 发表于 07-07 17:10 1904次阅读
    大彩讲堂:VisualTFT软件如何<b class='flag-5'>自定义</b>圆形进度条

    KiCad 中的自定义规则(KiCon 演讲)

    设计规则 展开,重点探讨了 那些复杂却强大的特性。 由于这些规则本质上是基于文本表达的,需要用户细致入微的理解。演讲的 核心目标 是引导用户有效实施这些规则,从而 规避布线问题、提升制造良率,并优化设计流程 。 讨论 始于对自定义设计规则的
    的头像 发表于 06-16 11:17 2556次阅读
    KiCad 中的<b class='flag-5'>自定义</b>规则(KiCon 演讲)

    HarmonyOS应用自定义键盘解决方案

    自定义键盘是一种替换系统默认键盘的解决方案,可实现键盘个性化交互。允许用户结合业务需求与操作习惯,对按键布局进行可视化重构、设置多功能组合键位,使输入更加便捷和舒适。在安全防护层面,自定义键盘可以
    的头像 发表于 06-05 14:19 2605次阅读

    Skydel25.4发布:解锁自定义星座,增强C波段与干扰模拟能力

    在GNSS模拟技术持续迭代的浪潮中,Skydel迈出创新一步,正式发布25.4.0版本及后续修复版本25.4.1。本次更新的核心突破在于引入了强大的自定义星座功能,赋予用户前所未有的自由度,可创建包含多达400颗卫星的专属星座,突破传统测试限制。
    的头像 发表于 06-03 10:14 861次阅读
    Skydel25.4发布:解锁<b class='flag-5'>自定义</b>星座,增强C波段与干扰模拟能力

    如何使用自定义设置回调函数?

    你好,我正在尝试编写自己的自定义设置回调函数,并使用 fastEnum=false。 是否有任何代码示例或资料可供我参考? void CyU3PUsbRegisterSetupCallback
    发表于 05-21 06:11