0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

WpOh_rgznai100 来源:yxw 2019-06-06 14:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。

近年来,基于神经网络的端到端文本到语音合成(Text-to-Speech,TTS)技术取了快速发展。与传统语音合成中的拼接法(concatenative synthesis)和参数法(statistical parametric synthesis)相比,端到端语音合成技术生成的声音通常具有更好的声音自然度。但是,这种技术依然面临以下几个问题:

合成语音的速度较慢:端到端模型通常以自回归(Autoregressive)的方式生成梅尔谱(Mel-Spectrogram),再通过声码器(Vocoder)合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;

合成的语音稳定性较差:端到端模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成,由于序列生成的错误传播(Error Propagation)以及注意力对齐不准,导致出现重复吐词或漏词现象;

缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,无法显式地控制生成语音的语速或者韵律停顿等。

为了解决上述的一系列问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,可以并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音。

在LJSpeech数据集上的实验表明,FastSpeech除了在语音质量方面可以与传统端到端自回归模型(如Tacotron2和Transformer TTS)相媲美,还具有以下几点优势:

快速:与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了近38倍,单GPU上的语音合成速度是实时语音速度的30倍;

鲁棒:几乎完全消除了合成语音中重复吐词和漏词问题;

可控:可以平滑地调整语音速度和控制停顿以部分提升韵律。

模型框架

图1. FastSpeech网络架构

前馈Transformer架构

FastSpeech采用一种新型的前馈Transformer网络架构,抛弃掉传统的编码器-注意力-解码器机制,如图1(a)所示。其主要模块采用Transformer的自注意力机制(Self-Attention)以及一维卷积网络(1D Convolution),我们将其称之为FFT块(Feed-Forward Transformer Block, FFT Block),如图1(b)所示。前馈Transformer堆叠多个FFT块,用于音素(Phoneme)到梅尔谱变换,音素侧和梅尔谱侧各有N个FFT块。特别注意的是,中间有一个长度调节器(Length Regulator),用来调节音素序列和梅尔谱序列之间的长度差异。

长度调节器

长度调节器如图1(c)所示。由于音素序列的长度通常小于其梅尔谱序列的长度,即每个音素对应于几个梅尔谱序列,我们将每个音素对齐的梅尔谱序列的长度称为音素持续时间。长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔谱序列的长度。我们可以等比例地延长或者缩短音素的持续时间,用于声音速度的控制。此外,我们还可以通过调整句子中空格字符的持续时间来控制单词之间的停顿,从而调整声音的部分韵律。

音素持续时间预测器

音素持续时间预测对长度调节器来说非常重要。如图1(d)所示,音素持续时间预测器包括一个2层一维卷积网络,以及叠加一个线性层输出标量用以预测音素的持续时间。这个模块堆叠在音素侧的FFT块之上,使用均方误差(MSE)作为损失函数,与FastSpeech模型协同训练。我们的音素持续时间的真实标签信息是从一个额外的基于自回归的Transformer TTS模型中抽取encoder-decoder之间的注意力对齐信息得到的,详细信息可查阅文末论文。

实验评估

为了验证FastSpeech模型的有效性,我们从声音质量、生成速度、鲁棒性和可控制性几个方面来进行了评估。

声音质量

我们选用LJSpeech数据集进行实验,LJSpeech包含13100个英语音频片段和相应的文本,音频的总长度约为24小时。我们将数据集分成3组:300个样本作为验证集,300个样本作为测试集,剩下的12500个样本用来训练。

我们对测试样本作了MOS测试,每个样本至少被20个英语母语评测者评测。MOS指标用来衡量声音接近人声的自然度和音质。我们将FastSpeech方法与以下方法进行对比:1) GT, 真实音频数据;2) GT (Mel + WaveGlow), 用WaveGlow作为声码器将真实梅尔谱转换得到的音频;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一种常用的参数法语音合成系统,并且采用WORLD作为声码器。

从表1中可以看出,我们的音质几乎可以与自回归的Transformer TTS和Tacotron 2相媲美。

FastSpeech合成的声音Demo:

文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

合成速度

我们比较FastSpeech与具有近似参数量的Transformer TTS的语音合成速度。从表2可以看出,在梅尔谱的生成速度上,FastSpeech比自回归的Transformer TTS提速将近270倍;在端到端(合成语音)的生成速度上,FastSpeech比自回归的Transformer TTS提速将近38倍。FastSpeech平均合成一条语音的时间为0.18s,由于我们的语音平均时长为6.2s,我们的模型在单GPU上的语音合成速度是实时语音速度的30倍(6.2/0.18)。

图2展示了测试集上生成语音的耗时和生成的梅尔谱长度(梅尔谱长度与语音长度成正比)的可视化关系图。可以看出,随着生成语音长度的增大,FastSpeech的生成耗时并没有发生较大变化,而Transformer TTS的速度对长度非常敏感。这也表明我们的方法非常有效地利用了GPU的并行性实现了加速。

图2. 生成语音的耗时与生成的梅尔谱长度的可视化关系图

鲁棒性

自回归模型中的编码器-解码器注意力机制可能导致音素和梅尔谱之间的错误对齐,进而导致生成的语音出现重复吐词或漏词。为了评估FastSpeech的鲁棒性,我们选择微软(亚洲)互联网工程院语音团队产品线上使用的50个较难的文本对FastSpeech和基准模型Transformer TTS鲁棒性进行测试。从下表可以看出,Transformer TTS的句级错误率为34%,而FastSpeech几乎可以完全消除重复吐词和漏词。

语速调节

FastSpeech可以通过长度调节器很方便地调节音频的语速。通过实验发现,从0.5x到1.5x变速,FastSpeech生成的语音清晰且不失真。

消融对比实验

我们也比较了FastSpeech中一些重要模块和训练方法(包括FFT中的一维卷积、序列级别的知识蒸馏技术和参数初始化)对生成音质效果的影响,通过CMOS的结果来衡量影响程度。由下表可以看出,这些模块和方法确实有助于我们模型效果的提升。

未来,我们将继续提升FastSpeech模型在生成音质上的表现,并且将会把该模型应用到其它语言(例如中文)、多说话人和低资源场景中。我们还会尝试将FastSpeech与并行神经声码器结合在一起训练,形成一个完全端到端训练的语音到文本并行架构。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107354
  • 互联网
    +关注

    关注

    55

    文章

    11321

    浏览量

    108860
  • 语音合成系统

    关注

    0

    文章

    3

    浏览量

    6450

原文标题:速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek最新论文:训练速度提升9,推理速度快11

    是上一代Grok2的15左右。在Benchmarks中,Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。   不过用如此大规模的算力集群,花费上一代15的计算资源投入,业界认为
    的头像 发表于 02-20 11:25 2652次阅读
    DeepSeek最新论文:训练<b class='flag-5'>速度</b><b class='flag-5'>提升</b>9<b class='flag-5'>倍</b>,推理<b class='flag-5'>速度</b>快11<b class='flag-5'>倍</b>!

    微软最新研发微流体冷却系统助力散热效率提升最高三

    当AI技术芯片的功耗和热量不断攀升,散热成为技术进步新瓶颈。微软最新研发的微流体冷却系统突破传统冷板限制,将液体冷却剂直接引入芯片内部,散热效率提升最高3。这项技术不仅显著降低温升与
    的头像 发表于 11-17 09:39 371次阅读

    芯原与谷歌联合推出开源Coral NPU IP

    芯原股份近日宣布与谷歌联合推出面向始终在线、超低能耗端侧大语言模型应用的Coral NPU IP。
    的头像 发表于 11-13 11:24 285次阅读
    芯原与谷歌<b class='flag-5'>联合推出</b>开源Coral NPU IP

    福州移动与华为联合推出国内首个端到端智能化体验经营系统

    近日,福州移动与华为联合推出国内首个端到端智能化体验经营系统,通过多智能管理系统协同,实现场景化体验套餐的可预估、可保障、可保护、可评估,分层分级保障用户在热门景区、大型演唱会和体育赛事的流畅
    的头像 发表于 10-24 09:46 295次阅读

    IMU+多相机高速联合自动标定方案

    “IMU+多相机高速联合自动标定仪”,20 秒完成全流程,一举填补国产高端标定装备市场断层。 机械臂全程抓取位姿,20秒完成多相机+IMU联合标定,人工零干预,产线节拍提升30-100
    发表于 10-23 14:04

    一款工业级MP3语音芯片介绍

    YC686语音芯片:为娱乐设备打造高可靠音频解决方案 在弹珠机、礼品机、娃娃机等娱乐设备领域,卓越的音效体验已成为提升设备吸引力和用户留存率的关键因素。广州语创电子推出的YC686-16S语音
    发表于 09-08 10:33

    基于开源鸿蒙的语音识别及语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。
    的头像 发表于 08-25 14:26 3591次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b>识别及<b class='flag-5'>语音</b><b class='flag-5'>合成</b>应用开发样例

    从开发工程师视角看TTS语音合成芯片

    功能机,有着诸多跨越性优势。 一、TTS 语音合成芯片vs传统播报芯片 (一)内容灵活性 传统播报芯片如同老式唱片,内容固化。在产品生产时就已将固定语音内容烧录进去,后续很难更改。若产品应用场景改变或需更
    的头像 发表于 08-13 14:52 645次阅读

    Arm 与微软合作,为基于 Arm 架构的 PC 和移动设备应用提供超强 AI 体验

    ArmKleidiAI与ONNXRuntime的集成,为Windows和安卓操作系统带来了显著的AI性能优化,实现高达2.6的AI推理速度提升,从而加速应用体验。
    的头像 发表于 06-03 16:47 725次阅读
    Arm 与<b class='flag-5'>微软</b>合作,为基于 Arm 架构的 PC 和移动设备应用提供超强 AI 体验

    F1®与亚马逊云科技联合推出全新在线体验 车迷可亲手打造专属赛道

    北京 ——2025 年 5 月 22 日 世界一级方程式锦标赛®(以下简称:F1®)在其成立75周年之际,与亚马逊云科技联合推出全新数字互动体验,使其车迷可自主创建、定制并分享其专属F1赛道
    发表于 05-22 11:40 1401次阅读

    微软推出两款全新销售智能体

    微软推出销售智能体和Sales Research智能体,助力企业AI技术驱动的销售转型。它们可无缝集成CRM系统,实现销售线索的自动化管理和个性化客户互动,显著提升销售效率。近70%财
    的头像 发表于 05-09 16:09 991次阅读

    微软推出全新Surface Windows11 AI+ PC Surface Laptop 13 英寸和Surface Pro 12英寸

    ,旨在帮助人们完成更多的事务。现在,微软和 Surface 进一步扩展了 Windows 11 AI+ PC 的家族,推出了兼具性能和便携的全新 Surface Laptop,13 英寸
    的头像 发表于 05-08 15:52 1061次阅读

    MVG推出SpeedProbe DL解决方案:有源相控阵天线校准速度提升至5

    系统高达5的校准速度,显著提升有源相控阵天线在防务领域的测试效率与性能。 MVG销售总监 Per Noren 表示:“SpeedProbe DL解决方案 在IDEX展会上
    发表于 04-21 16:35 1344次阅读
    MVG<b class='flag-5'>推出</b>SpeedProbe DL解决方案:有源相控阵天线校准<b class='flag-5'>速度</b><b class='flag-5'>提升</b>至5<b class='flag-5'>倍</b>

    【CW32模块使用】语音合成播报模块

    SYN6288E 中文语音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/价比更高的 SYN6288 芯片的基础上更改封装方式的,效果更自然的一款中高端语音
    的头像 发表于 03-29 17:25 988次阅读
    【CW32模块使用】<b class='flag-5'>语音</b><b class='flag-5'>合成</b>播报模块

    芯资讯|WT3000T8语音合成芯片:高性价比语音交互解决方案

    在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的
    的头像 发表于 03-24 09:05 850次阅读
    芯资讯|WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b>芯片:高性价比<b class='flag-5'>语音</b>交互解决方案