0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Riva自定义文本创建语音界面

星星科技指导员 来源:NVIDIA 作者:About Gordana Neskovi 2022-03-31 16:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型,为企业在全球部署语音 AI 应用提供了动力。此外,企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。

NVIDIA Riva 是一款 GPU 加速语音 AI SDK ,用于开发实时应用程序,如实时字幕、向基于文本的聊天机器人添加语音,以及在呼叫中心生成实时转录。为了便于实施, Riva 在 NGC 目录中提供了高度精确的预训练模型。

和 TAO 工具包 ,这些模型可以为任何行业定制,包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化,可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。

Riva 发布亮点包括

西班牙语、德语和俄语的世界级语音识别技能。

可定制的文本到语音管道,用于表达性互动。

TAO 工具包的低代码微调工作流。

多种语言的自动语音识别

从呼叫中心到虚拟助手,每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。

图 1:NVIDIA Riva 世界级的自动语音识别系统有英语、西班牙语、德语和俄语版本。

非英语自动语音识别模型是在各种开源数据集(如 Mozilla Common Voice )以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度,并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上,这些模型在多个行业应用中提供了世界级的准确性。

可定制的文本到语音管道

为了让客户享受逼真的对话,语音应用程序必须提供类似人类的表情。使用 FASTROPE ,NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如,在推理过程中,开发人员可以使用 SSML 标签改变语音音调和速度。

图 2:NVIDIA Riva 提供了可定制的文本到语音管道,用于更具表现力的交互。

最新的最先进的模型,比如里瓦的 Fastpitch ,帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。

关于作者

About Gordana Neskovic

Gordana Neskovic 是AI/DL产品营销团队的成员,负责 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109076
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296491
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无图形界面模式下自定义检查工具的应用

    此前文章已介绍 ANSA 中的自定义检查工具。本文将探讨该功能在无图形界面(No-GUI)模式下的应用,旨在满足标准化工作流程的需求,适用于需要高度自动化的前处理场景。通过集成自定义检查,用户可实现工作流程的高效自动化运行。
    的头像 发表于 11-30 14:13 289次阅读
    无图形<b class='flag-5'>界面</b>模式下<b class='flag-5'>自定义</b>检查工具的应用

    零代码实现茶吧机自定义语音控制定制

    零代码实现茶吧机自定义语音控制定制 前言 茶吧机集成离线语音控制,核心是通过自然语音交互替代手动操作实现全方位体验升级 —— 既无需起身即可完成烧水、调温等操作,省去传统多步按键调试的
    的头像 发表于 10-17 16:43 550次阅读
    零代码实现茶吧机<b class='flag-5'>自定义</b><b class='flag-5'>语音</b>控制定制

    如何使用SDK进行自定义音频播放功能

    在上一篇文章安信可离线语音模组 VC-01、VC-02 系列教程 【二次开发篇】自定义音频替换失败过程中,简要概述了res_build_tool.py 文件, 其主要的作用就是将音频文件进行转换,从而使编译固件的时候能够将音频文件编译到BIN中,然后在各项事件触发的时候实
    的头像 发表于 09-25 15:52 3009次阅读
    如何使用SDK进行<b class='flag-5'>自定义</b>音频播放功能

    大彩讲堂:VisualTFT软件如何自定义圆形进度条

    VisualTFT软件如何自定义圆形进度条
    的头像 发表于 07-07 17:10 1198次阅读
    大彩讲堂:VisualTFT软件如何<b class='flag-5'>自定义</b>圆形进度条

    KiCad 中的自定义规则(KiCon 演讲)

    设计规则 展开,重点探讨了 那些复杂却强大的特性。 由于这些规则本质上是基于文本表达的,需要用户细致入微的理解。演讲的 核心目标 是引导用户有效实施这些规则,从而 规避布线问题、提升制造良率,并优化设计流程 。 讨论 始于对自定义设计规则的
    的头像 发表于 06-16 11:17 1459次阅读
    KiCad 中的<b class='flag-5'>自定义</b>规则(KiCon 演讲)

    HarmonyOS应用自定义键盘解决方案

    自定义键盘是一种替换系统默认键盘的解决方案,可实现键盘个性化交互。允许用户结合业务需求与操作习惯,对按键布局进行可视化重构、设置多功能组合键位,使输入更加便捷和舒适。在安全防护层面,自定义键盘可以
    的头像 发表于 06-05 14:19 1569次阅读

    LabVIEW运动控制(三):EtherCAT运动控制器的高效加工指令自定义封装

    LabVIEW高效加工指令自定义封装
    的头像 发表于 04-08 13:49 3263次阅读
    LabVIEW运动控制(三):EtherCAT运动控制器的高效加工指令<b class='flag-5'>自定义</b>封装

    如何添加自定义单板

    在开发过程中,用户有时需要创建自定义板配置。本节将通过一个实例讲解用户如何创建属于自己的machine,下面以g2l-test.conf为例进行说明。
    的头像 发表于 03-12 14:43 1082次阅读

    如何快速创建用户自定义Board和App工程

    概述自HPM_SDKv1.7.0发布开始,在HPM_ENV中新增了user_template文件夹,以方便用户快速创建自定义的Board和App工程。user_template是用户模板工程,用户
    的头像 发表于 02-08 13:38 998次阅读
    如何快速<b class='flag-5'>创建</b>用户<b class='flag-5'>自定义</b>Board和App工程

    Altium Designer 15.0自定义元件设计

    电子发烧友网站提供《Altium Designer 15.0自定义元件设计.pdf》资料免费下载
    发表于 01-21 15:04 0次下载
    Altium Designer 15.0<b class='flag-5'>自定义</b>元件设计

    think-cell:自定义think-cell(四)

    定义这些设置。 在 PowerPoint 幻灯片母版视图中,创建新的自定义版式。您将复制与 think-cell 议程幻灯片的所需外观最匹配的现有自定义布局之一。 将新的
    的头像 发表于 01-13 10:37 880次阅读
    think-cell:<b class='flag-5'>自定义</b>think-cell(四)

    智能语音识别照明解决方案,平台自定义,中英切换

    智能语音识别照明方案引入NRK3502芯片,支持平台自定义,离线控制,中英双语切换。NRK3502具备高性能和灵活自定义能力,可推动智能照明革新,控制其他智能设备,为国际用户提供全方位智能生活体验。
    的头像 发表于 01-10 13:23 798次阅读
    智能<b class='flag-5'>语音</b>识别照明解决方案,平台<b class='flag-5'>自定义</b>,中英切换

    think-cell;自定义think-cell(一)

    布局介绍了如何创建自定义议程幻灯片布局,第六部分 C.6 功能区自定义 介绍了如何使用 PowerPoint 的功能区自定义选项自定义 th
    的头像 发表于 01-08 11:31 1240次阅读
    think-cell;<b class='flag-5'>自定义</b>think-cell(一)

    NV512H语音芯片赋能加湿器方案,集语音播报+平台自定义语音功能

    。NV512H语音芯片是一款适合大中小型批量生产的Flash语音芯片。它具有生产周期短,成本低,性能稳定,音质高,控制方便,平台自定义等诸多显著优点,适合低成本快速投产的品牌
    的头像 发表于 12-26 13:35 796次阅读
    NV512H<b class='flag-5'>语音</b>芯片赋能加湿器方案,集<b class='flag-5'>语音</b>播报+平台<b class='flag-5'>自定义</b><b class='flag-5'>语音</b>功能

    驱鸟器自定义播放音乐,低成本语音方案选型-N9305九芯电子

    农业现代化需高效环保驱鸟器,N9305语音芯片提供低成本方案,支持自定义音乐,低功耗高可靠,易集成自主更新,助力农业可持续发展。
    的头像 发表于 12-10 13:39 787次阅读