0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

WpOh_rgznai100 来源:yxw 2019-06-06 14:09 次阅读

目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。

近年来,基于神经网络的端到端文本到语音合成(Text-to-Speech,TTS)技术取了快速发展。与传统语音合成中的拼接法(concatenative synthesis)和参数法(statistical parametric synthesis)相比,端到端语音合成技术生成的声音通常具有更好的声音自然度。但是,这种技术依然面临以下几个问题:

合成语音的速度较慢:端到端模型通常以自回归(Autoregressive)的方式生成梅尔谱(Mel-Spectrogram),再通过声码器(Vocoder)合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;

合成的语音稳定性较差:端到端模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成,由于序列生成的错误传播(Error Propagation)以及注意力对齐不准,导致出现重复吐词或漏词现象;

缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,无法显式地控制生成语音的语速或者韵律停顿等。

为了解决上述的一系列问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,可以并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音。

在LJSpeech数据集上的实验表明,FastSpeech除了在语音质量方面可以与传统端到端自回归模型(如Tacotron2和Transformer TTS)相媲美,还具有以下几点优势:

快速:与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了近38倍,单GPU上的语音合成速度是实时语音速度的30倍;

鲁棒:几乎完全消除了合成语音中重复吐词和漏词问题;

可控:可以平滑地调整语音速度和控制停顿以部分提升韵律。

模型框架

图1. FastSpeech网络架构

前馈Transformer架构

FastSpeech采用一种新型的前馈Transformer网络架构,抛弃掉传统的编码器-注意力-解码器机制,如图1(a)所示。其主要模块采用Transformer的自注意力机制(Self-Attention)以及一维卷积网络(1D Convolution),我们将其称之为FFT块(Feed-Forward Transformer Block, FFT Block),如图1(b)所示。前馈Transformer堆叠多个FFT块,用于音素(Phoneme)到梅尔谱变换,音素侧和梅尔谱侧各有N个FFT块。特别注意的是,中间有一个长度调节器(Length Regulator),用来调节音素序列和梅尔谱序列之间的长度差异。

长度调节器

长度调节器如图1(c)所示。由于音素序列的长度通常小于其梅尔谱序列的长度,即每个音素对应于几个梅尔谱序列,我们将每个音素对齐的梅尔谱序列的长度称为音素持续时间。长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔谱序列的长度。我们可以等比例地延长或者缩短音素的持续时间,用于声音速度的控制。此外,我们还可以通过调整句子中空格字符的持续时间来控制单词之间的停顿,从而调整声音的部分韵律。

音素持续时间预测器

音素持续时间预测对长度调节器来说非常重要。如图1(d)所示,音素持续时间预测器包括一个2层一维卷积网络,以及叠加一个线性层输出标量用以预测音素的持续时间。这个模块堆叠在音素侧的FFT块之上,使用均方误差(MSE)作为损失函数,与FastSpeech模型协同训练。我们的音素持续时间的真实标签信息是从一个额外的基于自回归的Transformer TTS模型中抽取encoder-decoder之间的注意力对齐信息得到的,详细信息可查阅文末论文。

实验评估

为了验证FastSpeech模型的有效性,我们从声音质量、生成速度、鲁棒性和可控制性几个方面来进行了评估。

声音质量

我们选用LJSpeech数据集进行实验,LJSpeech包含13100个英语音频片段和相应的文本,音频的总长度约为24小时。我们将数据集分成3组:300个样本作为验证集,300个样本作为测试集,剩下的12500个样本用来训练。

我们对测试样本作了MOS测试,每个样本至少被20个英语母语评测者评测。MOS指标用来衡量声音接近人声的自然度和音质。我们将FastSpeech方法与以下方法进行对比:1) GT, 真实音频数据;2) GT (Mel + WaveGlow), 用WaveGlow作为声码器将真实梅尔谱转换得到的音频;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一种常用的参数法语音合成系统,并且采用WORLD作为声码器。

从表1中可以看出,我们的音质几乎可以与自回归的Transformer TTS和Tacotron 2相媲美。

FastSpeech合成的声音Demo:

文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

合成速度

我们比较FastSpeech与具有近似参数量的Transformer TTS的语音合成速度。从表2可以看出,在梅尔谱的生成速度上,FastSpeech比自回归的Transformer TTS提速将近270倍;在端到端(合成语音)的生成速度上,FastSpeech比自回归的Transformer TTS提速将近38倍。FastSpeech平均合成一条语音的时间为0.18s,由于我们的语音平均时长为6.2s,我们的模型在单GPU上的语音合成速度是实时语音速度的30倍(6.2/0.18)。

图2展示了测试集上生成语音的耗时和生成的梅尔谱长度(梅尔谱长度与语音长度成正比)的可视化关系图。可以看出,随着生成语音长度的增大,FastSpeech的生成耗时并没有发生较大变化,而Transformer TTS的速度对长度非常敏感。这也表明我们的方法非常有效地利用了GPU的并行性实现了加速。

图2. 生成语音的耗时与生成的梅尔谱长度的可视化关系图

鲁棒性

自回归模型中的编码器-解码器注意力机制可能导致音素和梅尔谱之间的错误对齐,进而导致生成的语音出现重复吐词或漏词。为了评估FastSpeech的鲁棒性,我们选择微软(亚洲)互联网工程院语音团队产品线上使用的50个较难的文本对FastSpeech和基准模型Transformer TTS鲁棒性进行测试。从下表可以看出,Transformer TTS的句级错误率为34%,而FastSpeech几乎可以完全消除重复吐词和漏词。

语速调节

FastSpeech可以通过长度调节器很方便地调节音频的语速。通过实验发现,从0.5x到1.5x变速,FastSpeech生成的语音清晰且不失真。

消融对比实验

我们也比较了FastSpeech中一些重要模块和训练方法(包括FFT中的一维卷积、序列级别的知识蒸馏技术和参数初始化)对生成音质效果的影响,通过CMOS的结果来衡量影响程度。由下表可以看出,这些模块和方法确实有助于我们模型效果的提升。

未来,我们将继续提升FastSpeech模型在生成音质上的表现,并且将会把该模型应用到其它语言(例如中文)、多说话人和低资源场景中。我们还会尝试将FastSpeech与并行神经声码器结合在一起训练,形成一个完全端到端训练的语音到文本并行架构。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6218

    浏览量

    103072
  • 互联网
    +关注

    关注

    54

    文章

    10892

    浏览量

    100694
  • 语音合成系统

    关注

    0

    文章

    3

    浏览量

    6342

原文标题:速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    安富利联合TE Connectivity推出全新WiFi 6E天线解决方案

    随着WiFi 6E技术的兴起,网络连接体验正迎来一场革新。安富利与TE Connectivity(TE)近日联合推出全新的WiFi 6E天线解决方案,该方案以其卓越的频段覆盖和增强的频率带宽,为用户、企业以及服务提供商带来了前所未有的连接价值。
    的头像 发表于 03-07 09:15 333次阅读

    微软和OpenAI洽谈注资人形机器人公司

    微软和OpenAI正在与领先的人形机器人公司Figure洽谈新一轮融资事宜。据透露,本轮融资金额最高可能达到5亿美元。
    的头像 发表于 02-02 10:41 350次阅读

    语音合成技术在智能驾驶中的创新与应用

    的发展趋势。 二、语音合成技术的创新 语音质量的提升:随着深度学习等技术的不断发展,语音合成技术
    的头像 发表于 02-01 18:09 344次阅读

    语音合成技术在智能驾驶中的应用与展望

    体验。本文将探讨语音合成技术在智能驾驶中的应用、优势以及未来发展趋势。 二、语音合成技术在智能驾驶中的应用 导航与路线指引:通过语音
    的头像 发表于 02-01 17:50 233次阅读

    WT588F02B语音芯片:在线更新语音内容的应用优势

    随着科技的飞速发展,人机交互技术在电子产品中的应用越来越广泛。其中,语音芯片作为实现人机交互的关键组件,发挥着重要的作用。唯创知音推出的WT588F02B语音芯片,以其出色的性能和创新的功能,成为
    的头像 发表于 12-19 08:38 157次阅读
    WT588F02B<b class='flag-5'>语音</b>芯片:在线更<b class='flag-5'>新语音</b>内容的应用优势

    科普语音芯片和语音合成芯片的不同之处

     可发声芯片分为语音芯片和语音合成芯片,二者在技术和用途上不同。语音合成芯片能将任意文字实时转换并朗读出来,支持所有中文文本
    的头像 发表于 10-31 15:42 257次阅读

    语音合成技术的应用与挑战

    语音合成技术是一种通过计算机技术生成人类可听的语音的技术,它已经广泛应用于各个领域。本文将介绍语音合成技术的应用以及所面临的挑战。 一、
    的头像 发表于 09-16 14:46 718次阅读

    语音合成技术的简介与未来发展

    语音合成是一种通过计算机技术生成人类可听的语音的技术。它将文本转换为语音,从而实现语音交互。本文将介绍
    的头像 发表于 09-15 18:17 783次阅读

    AI语音处理-文字合成语音功能

    这篇文章就介绍华为云提供的语音合成服务使用方法,利用提供的API接口完成语音合成功能,将合成语音
    的头像 发表于 07-08 09:50 1613次阅读
    AI<b class='flag-5'>语音</b>处理-文字<b class='flag-5'>合成语音</b>功能

    语音合成技术与语音合成数据,赋予声音新的可能性

    随着科技的不断进步,语音合成技术成为人机交互和智能应用领域的重要创新。在这个领域中,语音合成数据扮演着至关重要的角色,为技术的发展提供了关键的支持和驱动力。
    的头像 发表于 06-28 23:56 330次阅读

    语音合成数据的重要性:打造自然流畅的语音合成体验

    语音合成技术的快速发展为我们带来了更多便利和丰富的语音交互体验。然而,要实现高质量、自然流畅的语音合成
    的头像 发表于 06-24 03:07 338次阅读

    TTS语音合成技术及其应用

    TTS语音合成技术是一种将文本转换为自然语音的技术,它利用计算机技术和人工智能技术来模拟人声的发音和语调。该技术通过将文本转换为音素序列,并使用声学模型对每个音素进行参数化,最终生成自然语音
    的头像 发表于 06-24 02:28 833次阅读

    WT2003H-A01:支持U盘自主更新语音的MP3芯片,UART通信语音IC

    随着科技的不断发展,语音芯片可以带来更自然、便捷和个性化的交互体验,提高用户与设备之间的互动效率和舒适度,作为一款支持U盘自主更新语音的MP3芯片,WT2003H-A01带来了更快、更便捷的语音交互体验。
    的头像 发表于 06-16 10:34 285次阅读
    WT2003H-A01:支持U盘自主更<b class='flag-5'>新语音</b>的MP3芯片,UART通信<b class='flag-5'>语音</b>IC

    语音合成数据的重要性:训练高质量语音合成模型的关键

    语音合成是一种将文本转换为语音的技术,它在智能客服、智能助手、语音广告等多个领域有着广泛的应用。而要实现高质量的语音
    的头像 发表于 05-15 09:27 643次阅读

    语音合成技术是如何应用在我们生活中的

    随着科技的不断发展,语音合成技术越来越成为我们生活中不可或缺的一部分。语音合成技术是一种将文本转化为语音的技术,通过对
    的头像 发表于 04-24 10:41 1465次阅读