0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解独特的文本转语音应用

NVIDIA英伟达 来源:未知 2023-06-28 21:10 次阅读

虚拟助手在用户发出命令后就会作出语音回复。而生成语音回复的技术被称为文本转语音(TTS)

TTS 应用能够让辅助器具使用者访问更多内容,因此非常实用。最新的 TTS 技术可以从一段几分钟的音频数据中生成合成声音,非常适合仅留存了有限录音的失音者。

事实上,TTS 的应用正在因技术进步而不断增长:

  • 在几毫秒内运行端到端 TTS 流程,以实现自然互动。

  • 在推断时自定义 AI 模型和流程,以产生具有表现力的合成语音。

  • 部署在所有云、数据中心、边缘或嵌入式设备上。

本文将说明语音合成系统如何运作,然后介绍 TTS 技术的常见用途和新用途。

语音合成系统如何工作

顾名思义,文本转语音或语音合成是将书面文本转换成自然、类似人类的语音音频的过程。在端到端 TTS 流程中用于实现这一转换的关键模型和模块包括:

  • 文本规范化和预处理:将数字和缩略语变成文字。

  • 文本编码:将文本转换为输入到声谱图生成器的编码向量。

  • 声谱图生成器:从编码文本向量中生成声谱图。

  • 语音编码器模型:输入声谱图并生成一个人们可以听到的合成语音。

一般来说,TTS 是虚拟助手、数字人和服务机器人等应用的最终阶段。

常见的 TTS 应用

2021 年 IDC 对话式 AI 采用情况调查共调研了 251 家公司,其中 74.5% 在语音对话式 AI 解决方案中使用 TTS,68.5% 在无障碍解决方案中使用 TTS(图 1)。

9681e75a-15b4-11ee-962d-dac502259ad0.png

图 1. IDC 关于常见 TTS 用例的调查

语音合成的功能用途正得到许多行业的认可,人们可能已经看到过以下 TTS 技术用例。

虚拟网红

虚拟网红正在改变未来与企业或名人沟通的方式。虚拟网红也称为虚拟品牌大使或品牌代言人,它们可以协助公司推广产品和服务,名人也可以通过它们与粉丝保持全天候的联系。

在这些用例中 TTS 技术生成了自定义声音,然后被整合到动画虚拟网红或数字大使身上。

文本叙述

文本叙述能够大声朗读所有类型的文本。这项 TTS 功能可用于网站及阅读类应用,为喜欢音频类节目的人带来了福音。有视觉障碍的人也可以使用文字叙述听到他们喜欢的内容。

TTS 用于在这些应用程序上将文本转换成语音并朗读出来。但这项工作并不像表面上那么简单。为了提升收听体验,此类应用的声音必须抑扬顿挫、富有节奏和表现力。

常见的语音转文本准确性问题

对于生活在现代社会的人来说,最流行和具有吸引力的媒介莫过于音频和视频内容。TTS 技术可以帮助内容创作者为视频配音或创建播客。

为了获得更多的受众,创作者还可以使用 TTS 技术将博客、新闻文章等文本内容转换成音频。

TTS 的使用十分灵活,用户可以在变声器等应用中改变语音的音调、节奏和音量,使声音变得更具表现力。

独特的 TTS 应用

除了这些日常应用外,企业家们正在探索各种新颖的 TTS 应用。下文将介绍开发独特语音合成技术的公司。

用于智慧医院的语音通知亭:Artisight

Artisight 是一个应用于医院的物联网传感器网络,可改善医院的运营、财务业绩和患者体验。该公司帮助美国许多顶尖医院提高运营效率,同时通过任务自动化给患者带来更好的体验,比如呼叫患者到挂号窗口和化验等。

医院可以使用 TTS 技术与患者和访客分享有关医院服务、设施位置和一般健康公告的信息。该技术也可以使用多种语言帮助可能不会说医院当地语言的人。

视频 1. Artisight “诊所协调员”解决方案演示

上面的视频演示了医院通知亭的文字转语音技术如何读出患者排队单上的号码。

挑战和解决方案

过去,医院接待人员需要手动登记患者信息并在轮到患者就诊时通知他们。这种耗时的登记流程降低了医院的效率和患者的满意度。

Artisight 开发的语音签到、通知亭等智慧医院解决方案可提升患者的体验。

Artisight 和 NVIDIA Riva 赋能的通知亭实现了有效、快速的患者登记流程,将等待时间缩短了一半并避免了数据输入错误,最终提高了员工的工作效率和患者的满意度。

为数字虚拟形象提供类似人类声音:NVIDIA

TTS 技术使计算机能够将书面文字转换成语音,进而让数字人能够“开口说话”并以更加自然、有代入感的方式与用户交流。

为了取得用户的信任,数字人所说的话必须高度准确,尤其是当它们被用于教育、娱乐或其他互动用途时。使用 TTS 技术生成自然、类似人类的语音可以帮助数字人吸引用户的注意力和兴趣。

正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虚拟形象Toy Jensen 能够理解黄仁勋的问题并作出自然的回答。Toy Jensen 的声音使用 NVIDIA Riva 创建。

视频 2. 用于构建实时、交互式 AI 助手的 NVIDIA Omniverse ACE 平台

挑战和解决方案

开发用于数字人的 TTS 可能有一定的难度,尤其是在创造自然、真实的语音方面,并且难度取决于地区和语言。这是因为使用传统和统计算法创建的 TTS 系统可能导致语音听起来像是机器人或机械发出的,而用户对此可能不会“买账”。

此外,由于 TTS 系统受数据集、所使用的模型和模块类型等诸多因素影响,因此要为数字人应用创建灵活的自适应语音具有一定的难度。这使开发者难以生成具有细微差别和富有表现力的语音。

最后,数字人需要在不牺牲质量的情况下实时生成大量语音,因此创建高效、可扩展的 TTS 系统至关重要。

NVIDIA 为数字人和虚拟形象生成了自定义语音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可帮助开发只需短短几毫秒就能实时运行且精准的 TTS 流程,满足实现自然语音的必要条件,还可以灵活调整音调、持续时间和音量等,使生成的声音更具表现力。

开始使用语音合成

用户现在就可以开始将 TTS 功能集成到应用中,例如阅读内容或生成数字网红独特声音等。NVIDIA Riva 等 SDK 可以帮助用户开发出提供高准确度并进行高性能推理的应用。

点击“阅读原文”试用 NVIDIA Riva TTS。

扫描下方海报二维码观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放,主题演讲中文字幕版已上线,了解 AI、图形及其他领域的最新进展!


原文标题:了解独特的文本转语音应用

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3332

    浏览量

    87804

原文标题:了解独特的文本转语音应用

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    科大讯飞创新推出长文本、长图文、长语音大模型,解决落地难题

    近期,科大讯飞推出了首个支持长文本、长图及语音大数据处理的大模型,该系统融合了多元化数据源,包括海量文字、图片以及会议音频等,能为各行业场景提供专业化、精准化的答案。
    的头像 发表于 04-28 09:32 72次阅读

    stm32f0怎么不使用语音IC做合成语音

    我这边板子就一个功放电路,要求不使用语音IC做语音,我听别人说去了解MP3这一方面,但我只找到MCU软解码,但我怎么不了解,不清楚怎么做成自己的语音
    发表于 04-25 06:00

    WT3000T8-TTS语音合成芯片及应用场景介绍

    TTS语音合成芯片是一种能够将文本信息转化为自然语音的专用芯片。它通过内置的语音合成算法和音频处理单元,实现了文本
    的头像 发表于 04-18 18:03 396次阅读

    转语音合成芯片(TTS芯片),看这一篇就够了

    什么是语音合成芯片:语音合成芯片也称为TTS芯片,即文字转语音芯片,是一种能够将输入的文字信息转换为语音输出的芯片。通过TTS芯片,我们可以将文字信息转化为自然
    的头像 发表于 03-19 18:13 255次阅读
    玩<b class='flag-5'>转语音</b>合成芯片(TTS芯片),看这一篇就够了

    快速全面了解大模型长文本能力

    那关于LLM的长文本能力,目前业界通常都是怎么做的?有哪些技术点或者方向?今天我们就来总结一波,供大家快速全面了解
    发表于 02-22 14:04 307次阅读
    快速全面<b class='flag-5'>了解</b>大模型长<b class='flag-5'>文本</b>能力

    亚马逊发布史上最大文本转语音模型BASE TTS

    亚马逊的人工智能研究团队近日宣布,他们成功开发出了迄今为止规模最大的文本转语音模型——BASE TTS。这款新模型拥有高达9.8亿个参数,不仅在规模上超越了之前的所有版本,还在能力上实现了质的飞跃。
    的头像 发表于 02-20 17:04 389次阅读

    科大讯飞语音控制模块怎么用

    和不足之处。 一、科大讯飞语音控制模块的原理 科大讯飞语音控制模块主要基于两项核心技术:语音识别和语音合成。语音识别技术是将用户的
    的头像 发表于 12-25 13:58 624次阅读

    在 NVIDIA ACE 中使用 AI 动画和语音功能打造逼真的虚拟形象

    和情感表达。 开发者现在可以使用新的云 API 在应用中轻松实现和扩展智能虚拟形象,包括自动语音识别(ASR)、文本转语音(TTS)、神经机器翻译(NMT)和 Audio2Face(A2F)。 借助这些
    的头像 发表于 12-15 15:50 286次阅读
    在 NVIDIA ACE 中使用 AI 动画和<b class='flag-5'>语音</b>功能打造逼真的虚拟形象

    离线语音识别及控制是怎样的技术?

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连接,极大地提升了
    发表于 11-24 17:41

    科普语音芯片和语音合成芯片的不同之处

     可发声芯片分为语音芯片和语音合成芯片,二者在技术和用途上不同。语音合成芯片能将任意文字实时转换并朗读出来,支持所有中文文本合成,无需烧录语音
    的头像 发表于 10-31 15:42 270次阅读

    TTS技术赋能对讲机,迎来智能语音革新

    随着语音合成技术的快速发展,对讲机的智能语音升级已经到来。作为文本转语音的核心技术,TTS(文本语音
    的头像 发表于 10-20 14:53 280次阅读
    TTS技术赋能对讲机,迎来智能<b class='flag-5'>语音</b>革新

    使用Amazon Echo发送Twilio语音文本消息

    电子发烧友网站提供《使用Amazon Echo发送Twilio语音文本消息.zip》资料免费下载
    发表于 07-10 10:54 0次下载
    使用Amazon Echo发送Twilio<b class='flag-5'>语音</b>或<b class='flag-5'>文本</b>消息

    TTS语音合成技术及其应用

    TTS语音合成技术是一种将文本转换为自然语音的技术,它利用计算机技术和人工智能技术来模拟人声的发音和语调。该技术通过将文本转换为音素序列,并使用声学模型对每个音素进行参数化,最终生成自
    的头像 发表于 06-24 02:28 845次阅读

    语音合成数据的重要性:训练高质量语音合成模型的关键

    语音合成是一种将文本转换为语音的技术,它在智能客服、智能助手、语音广告等多个领域有着广泛的应用。而要实现高质量的语音合成,就需要大量的
    的头像 发表于 05-15 09:27 654次阅读

    语音识别芯片or语音提示芯片哪款更贴近生活

    都有哪些优缺点呢? 语音识别芯片 语音识别芯片只需要上位机发送文本信息就可以了,这些文本信息会转化成为语音信号,相比
    的头像 发表于 05-10 16:23 314次阅读