0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解独特的文本转语音应用

NVIDIA英伟达 来源:未知 2023-06-28 21:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

虚拟助手在用户发出命令后就会作出语音回复。而生成语音回复的技术被称为文本转语音(TTS)

TTS 应用能够让辅助器具使用者访问更多内容,因此非常实用。最新的 TTS 技术可以从一段几分钟的音频数据中生成合成声音,非常适合仅留存了有限录音的失音者。

事实上,TTS 的应用正在因技术进步而不断增长:

  • 在几毫秒内运行端到端 TTS 流程,以实现自然互动。

  • 在推断时自定义 AI 模型和流程,以产生具有表现力的合成语音。

  • 部署在所有云、数据中心、边缘或嵌入式设备上。

本文将说明语音合成系统如何运作,然后介绍 TTS 技术的常见用途和新用途。

语音合成系统如何工作

顾名思义,文本转语音或语音合成是将书面文本转换成自然、类似人类的语音音频的过程。在端到端 TTS 流程中用于实现这一转换的关键模型和模块包括:

  • 文本规范化和预处理:将数字和缩略语变成文字。

  • 文本编码:将文本转换为输入到声谱图生成器的编码向量。

  • 声谱图生成器:从编码文本向量中生成声谱图。

  • 语音编码器模型:输入声谱图并生成一个人们可以听到的合成语音。

一般来说,TTS 是虚拟助手、数字人和服务机器人等应用的最终阶段。

常见的 TTS 应用

2021 年 IDC 对话式 AI 采用情况调查共调研了 251 家公司,其中 74.5% 在语音对话式 AI 解决方案中使用 TTS,68.5% 在无障碍解决方案中使用 TTS(图 1)。

9681e75a-15b4-11ee-962d-dac502259ad0.png

图 1. IDC 关于常见 TTS 用例的调查

语音合成的功能用途正得到许多行业的认可,人们可能已经看到过以下 TTS 技术用例。

虚拟网红

虚拟网红正在改变未来与企业或名人沟通的方式。虚拟网红也称为虚拟品牌大使或品牌代言人,它们可以协助公司推广产品和服务,名人也可以通过它们与粉丝保持全天候的联系。

在这些用例中 TTS 技术生成了自定义声音,然后被整合到动画虚拟网红或数字大使身上。

文本叙述

文本叙述能够大声朗读所有类型的文本。这项 TTS 功能可用于网站及阅读类应用,为喜欢音频类节目的人带来了福音。有视觉障碍的人也可以使用文字叙述听到他们喜欢的内容。

TTS 用于在这些应用程序上将文本转换成语音并朗读出来。但这项工作并不像表面上那么简单。为了提升收听体验,此类应用的声音必须抑扬顿挫、富有节奏和表现力。

常见的语音转文本准确性问题

对于生活在现代社会的人来说,最流行和具有吸引力的媒介莫过于音频和视频内容。TTS 技术可以帮助内容创作者为视频配音或创建播客。

为了获得更多的受众,创作者还可以使用 TTS 技术将博客、新闻文章等文本内容转换成音频。

TTS 的使用十分灵活,用户可以在变声器等应用中改变语音的音调、节奏和音量,使声音变得更具表现力。

独特的 TTS 应用

除了这些日常应用外,企业家们正在探索各种新颖的 TTS 应用。下文将介绍开发独特语音合成技术的公司。

用于智慧医院的语音通知亭:Artisight

Artisight 是一个应用于医院的物联网传感器网络,可改善医院的运营、财务业绩和患者体验。该公司帮助美国许多顶尖医院提高运营效率,同时通过任务自动化给患者带来更好的体验,比如呼叫患者到挂号窗口和化验等。

医院可以使用 TTS 技术与患者和访客分享有关医院服务、设施位置和一般健康公告的信息。该技术也可以使用多种语言帮助可能不会说医院当地语言的人。

视频 1. Artisight “诊所协调员”解决方案演示

上面的视频演示了医院通知亭的文字转语音技术如何读出患者排队单上的号码。

挑战和解决方案

过去,医院接待人员需要手动登记患者信息并在轮到患者就诊时通知他们。这种耗时的登记流程降低了医院的效率和患者的满意度。

Artisight 开发的语音签到、通知亭等智慧医院解决方案可提升患者的体验。

Artisight 和 NVIDIA Riva 赋能的通知亭实现了有效、快速的患者登记流程,将等待时间缩短了一半并避免了数据输入错误,最终提高了员工的工作效率和患者的满意度。

为数字虚拟形象提供类似人类声音:NVIDIA

TTS 技术使计算机能够将书面文字转换成语音,进而让数字人能够“开口说话”并以更加自然、有代入感的方式与用户交流。

为了取得用户的信任,数字人所说的话必须高度准确,尤其是当它们被用于教育、娱乐或其他互动用途时。使用 TTS 技术生成自然、类似人类的语音可以帮助数字人吸引用户的注意力和兴趣。

正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虚拟形象Toy Jensen 能够理解黄仁勋的问题并作出自然的回答。Toy Jensen 的声音使用 NVIDIA Riva 创建。

视频 2. 用于构建实时、交互式 AI 助手的 NVIDIA Omniverse ACE 平台

挑战和解决方案

开发用于数字人的 TTS 可能有一定的难度,尤其是在创造自然、真实的语音方面,并且难度取决于地区和语言。这是因为使用传统和统计算法创建的 TTS 系统可能导致语音听起来像是机器人或机械发出的,而用户对此可能不会“买账”。

此外,由于 TTS 系统受数据集、所使用的模型和模块类型等诸多因素影响,因此要为数字人应用创建灵活的自适应语音具有一定的难度。这使开发者难以生成具有细微差别和富有表现力的语音。

最后,数字人需要在不牺牲质量的情况下实时生成大量语音,因此创建高效、可扩展的 TTS 系统至关重要。

NVIDIA 为数字人和虚拟形象生成了自定义语音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可帮助开发只需短短几毫秒就能实时运行且精准的 TTS 流程,满足实现自然语音的必要条件,还可以灵活调整音调、持续时间和音量等,使生成的声音更具表现力。

开始使用语音合成

用户现在就可以开始将 TTS 功能集成到应用中,例如阅读内容或生成数字网红独特声音等。NVIDIA Riva 等 SDK 可以帮助用户开发出提供高准确度并进行高性能推理的应用。

点击“阅读原文”试用 NVIDIA Riva TTS。

扫描下方海报二维码观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放,主题演讲中文字幕版已上线,了解 AI、图形及其他领域的最新进展!


原文标题:了解独特的文本转语音应用

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4126

    浏览量

    99776

原文标题:了解独特的文本转语音应用

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TTS语音芯片究竟是什么?工作原理、应用及厂家选型全解析

    一、什么是TTS语音芯片?它是如何工作的?TTS语音芯片,全称“文本转语音芯片”(Text-to-Speech芯片),又称语音合成芯片或文语
    的头像 发表于 04-15 08:38 309次阅读
    TTS<b class='flag-5'>语音</b>芯片究竟是什么?工作原理、应用及厂家选型全解析

    思泽远科技语音芯片指南:在嵌入式产品中 融入语音播报

    当前主流的语音芯片方案,并特别针对动态文本播报场景给出TTS(Text-to-Speech,文本转语音)功能的替代选型建议及横向对比。 一、明确语音
    的头像 发表于 04-14 09:17 509次阅读
    思泽远科技<b class='flag-5'>语音</b>芯片指南:在嵌入式产品中 融入<b class='flag-5'>语音</b>播报

    TTS文字转语音芯片选型指南:串口驱动、音质、功耗一次说清

    嵌入式产品开发语音播报功能,看起来是个不起眼的小功能,但选型的时候如果没选对,后期会增加很多麻烦。这篇文章从三个最关键的角度——串口驱动方式、音质、功耗分析,把TTS芯片选型的关键点说清楚。一、串口
    的头像 发表于 03-30 17:05 548次阅读
    TTS文字<b class='flag-5'>转语音</b>芯片选型指南:串口驱动、音质、功耗一次说清

    一文了解语音AI的运作方式

    语音 AI 是对话式 AI 的一个子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和文本转语
    的头像 发表于 02-27 16:10 611次阅读
    一文<b class='flag-5'>了解语音</b>AI的运作方式

    详解DBC的Signal与JSON文本结合

    为了优化CAN数据发送与接收的操作流程,更改以前手动输入状态对应数据的模式,采用下拉列表选择内容,但这需要用到超出DBC原有承载能力的信息。因此,将JSON与其结合,采用JSON格式文本写入Signal的Comment属性,将Comment属性的字符串通过JSON文本拓展
    的头像 发表于 01-06 10:57 501次阅读
    详解DBC的Signal与JSON<b class='flag-5'>文本</b>结合

    什么是语音芯片串口AT指令?实现智能语音交互的核心技术详解

    什么是AT指令AT指令是一套基于串行通信接口的标准化指令集,专门用于声音播放芯片与其他设备之间的数据传输和控制操作。这种通信协议通过简单的文本命令格式,实现了对语音
    的头像 发表于 11-10 12:53 704次阅读
    什么是<b class='flag-5'>语音</b>芯片串口AT指令?实现智能<b class='flag-5'>语音</b>交互的核心技术详解

    语音报警器:TTS语音播报,云平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本转语音)技术的智能设备。清晰、准确地用人类语言播报报警原因、位置、状态等具体信息。 工作原理 文本
    的头像 发表于 10-29 16:31 1064次阅读

    端到端语音交互数据 精准赋能语音大模型进阶

    语音大模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在语音-文本
    的头像 发表于 09-11 17:17 890次阅读

    语音机器人交互系统:核心技术与应用挑战

    : 一、核心技术模块 1. 自动语音识别(ASR):这是系统的“耳朵”。它负责将用户输入的模拟语音信号转换为计算机可处理的文本信息。当前,基于深度学习的端到端模型大幅提升了在复杂环境、多方言及口语化表达下的识别准确率与实时性
    的头像 发表于 09-02 11:08 1079次阅读

    代码即自由:开源TTS文本转语音应用赋予开发者终极掌控权

    对于开发者而言,开源TTS应用的意义远超工具本身——它提供完整的源代码访问权限,允许深度修改底层算法、优化语音质量、适配特殊硬件。代码即自由,开发者可随心所欲打造独一无二的TTS引擎,满足极致需求
    的头像 发表于 08-15 14:03 698次阅读
    代码即自由:开源TTS<b class='flag-5'>文本</b><b class='flag-5'>转语音</b>应用赋予开发者终极掌控权

    语音输出模块是什么?自控语音播报

    语音输出模块(VoiceOutputModule)是一种将数字信号或文本信息转换为人类可听语音的硬件/软件组件。相当于设备的“嘴巴”,让机器能够通过声音与人进行交互。 一、工作原理 1.输入接收
    的头像 发表于 08-13 15:20 1286次阅读

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了
    的头像 发表于 07-11 15:20 859次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    Air8000 TTS开源,语音合成从此“零距离”!

    文本转语音)——是一种将书面文本转换为人类可听语音的技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现力的语音
    的头像 发表于 07-03 16:33 769次阅读
    Air8000 TTS开源,<b class='flag-5'>语音</b>合成从此“零距离”!

    英语单词学习页面+单词朗读实现 -- 【2】单词朗读实现 ##HarmonyOS SDK AI##

    有网络支持,但是在原生鸿蒙下,是支持通过端侧AI,在本地进行文字转语音的输出的,这里使用到的是Core Speech Kit中的文本转语音功能 官网的代码很全,这里我也没必要去贴代码,只是分享一下开发
    发表于 06-29 23:26

    从代码到声音,Air8000 TTS开源应用开启创作新纪元!

    转语音)——是一种将书面文本转换为人类可听语音的技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现力的语音。   TTS可广泛应用于各个领域,通过
    的头像 发表于 06-27 17:06 720次阅读
    从代码到声音,Air8000 TTS开源应用开启创作新纪元!