0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度研究院推出了他们有关TTS的成果——ClariNet

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-26 09:12 次阅读

语音合成,也被称作TTS(text-to-speech),该技术的应用目前已十分广泛了,例如智能家居设备和智能助手等,论智也曾报道过很多相关研究项目。

百度研究者利用少量样本实现语音克隆

谷歌发布新语音合成模型Tacotron 2:这竟是机器说的话?

谷歌大脑发力语音搜索:一个用于语音识别的端到端模型

近日,百度研究院推出了他们有关TTS的成果——ClariNet,成为百度在TTS研究上的又一里程碑。此前基于神经内网络的TTS模型是将优化的文本到声谱图和波形合成模型分开来的,这可能会导致不理想的表现。而ClariNet第一次做到了用完全的端到端TTS模型,直接将文本转换成波形图,并且只需要一个神经网络即可。它的全卷积结构能够从零开始快速地训练。ClariNet在语音的自然度方面成功地超越了其他方法。以下是论智对这篇论文的编译。

论文摘要

WaveNet是DeepMind去年推出的基于深度学习的语音生成模型,它可以生成平行的语音波形,即整个句子中所有的词语都可以同时生成对应的波形。现在,我们提出了一种替代WaveNet的方法,我们从自回归的WaveNet中提取一个高斯逆自回归流(Gaussian Inverse autoregressive flow),并且以闭合形式计算KL散度,简化了训练算法并且提供了非常高效的蒸馏过程。除此之外,我们还提出了首个针对语音合成的文本到波形的神经架构(text-to-wave),这是全卷积的,并且可以快速地从零开始进行端到端训练。除此之外,我们还成功地在模型的隐藏表示中创建了并行波形生成器。

并行波形生成

在模型中,我们用高斯自回归WaveNet作为“老师网络”,将高斯逆自回归流作为“学生网络”。2018年,Oord等人提出了概率密度蒸馏法来降低逆自回归流(IAF)的最大可能学习中的难度。蒸馏过程中,学生网络IAF试着将它自己的样本分布与在自回归的WaveNet中训练的样本相匹配。然而,学生网络IAF的输出逻辑分布和教师网络WaveNet的输出之间的KL散度是不相容的,必须使用蒙特卡罗方法进行大概计算。而最终并行的WaveNet需要在蒸馏过程中进行双次采样:首先要将白噪声输入到学生网络中,然后从学生网络的输出分布中选择多个不同样本对KL散度进行估计。

但是在我们的模型中,加入了高斯设置,密度蒸馏方法只需要一个白噪声样本,然后将其输入封闭的KL散度计算中。我们的学生IAF网络在蒸馏过程中和老师WaveNet使用同一个条件网络(2D卷积层)。

Text-to-Wave架构

我们的卷积text-to-wave架构如下图所示:

它是基于另一个基于注意力的卷积TTS模型——Deep Voice 3创建的。Deep Voice 3能够将文本特征(例如字符、音素、强调等)转换成波谱特征(例如log-mel声谱和log-linear声谱)。这些波普特征可以输入到训练波形合成的模型中,例如WaveNet。相反,我们直接将从注意力机制中学习到的隐藏表示输入到神经语音编码器中,用端到端的方式从零训练整个模型。

我们所提出的架构包含四个部分:

编码器:一个和Deep Voice 3相同的编码器,它可以将文本特征编写进内部的隐藏表示。

解码器:同样和Deep Voice 3相同,可以用自回归的方式将编码器中的内容加码城log-mel声谱。

Bridge-net:这是一个卷积中间处理模块,它可以从解码器中处理隐藏表示,并且预测log-linear声谱。与解码器不同的是,它并非是因果联系的,并且可以使用未来的语境。另外,它还可以从框架层到采样层对隐藏表示进行上采样。

语音编码器:高斯自回归WaveNet可以合成波形,但是只能在上采样后的隐藏表示中实现。而它可以由自回归语音编码器的学生IAF网络替换。

实验过程

我们进行了几组实验来评估所提出的并行波形生成方法和text-to-wave结构。我们用了20个小时的英文演讲作为训练数据,下采样后音频变为24kHz。

首先我们测试了生成语音的自然程度,用MOS分数表示:

结果表示,高斯自回归WaveNet和MoGul以及softmax输出水平相当,比MoL要好。

接着我们将一个60层的并行学生网络从20层的高斯自回归WaveNet中进行蒸馏,它包括6个堆叠的高斯逆自回归流,每个流都由一个10层的WaveNet进行参数化。我们测试了前向和逆向KL散度,结果如下:

两种蒸馏方法都得到了不错的分数,我们希望未来加入感知和对比损失后会进一步提升。

最后我们从零训练了text-to-wave模型,并将其与Deep Voice 3中的同类模型相比,结果如下:

该分数表明text-to-wave模型明显比其他模型表现得好,并且有经过蒸馏的语音编码器的模型呢自回归神经编码器的表现水平相当。

结语

百度在语音合成方面的确做出了许多努力,今年三月,他们还推出了神经语音克隆系统,只需输入少量样本就能合成逼真语音。而今天的ClariNet是语音合成的又一里程碑,是该领域第一个真正的端到端模型,在GPU上取得了更高质量的结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131530
  • 百度
    +关注

    关注

    9

    文章

    2171

    浏览量

    88920
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119908

原文标题:语音合成的里程碑:百度推出首个完全端到端的TTS模型

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    下载百度到桌面_把百度下载到桌面

    `现在教你怎么把百度下载到桌面,让后你很方便就可以用百度。利用百度强大的平台整合力,为您整合万千热门应用,给您一键触达的超快感体验。 简单可依赖的界面,简洁易操作的设计,洗净繁琐只为您的快捷便利
    发表于 10-26 17:16

    创维集团研究院招聘—背光电子设计师

    最有实力的彩电研发中心之一,研究院总部坐落于亚洲最大的平面显示科技园深圳市石岩创维工业园(该工业园一被评为优秀花园式工业园)办公环境良好,公司内部具有各种配套齐全的先进电子测试设备及绘图仪器,多条
    发表于 11-07 10:00

    西安某500强研究院招聘

    西安某国球500强企业研究院招聘需要大量通信行业研发人员,主要岗位:嵌入式,射频,软件测试等要求:统招本科5年以上工作经验,硕士3年以上,博士应届毕业薪资面议有意者请联系QQ:2318655563邮箱:maggie.li@up-hr.com
    发表于 08-13 11:07

    中科建筑设计研究院有限公司招聘照明设计师

    研究院(有限公司)隶属于中国科学院,成立于1951年,具有建筑工程甲级资质、市政热力专项甲级、城市规划设计乙级资质。更多招聘详情可参考:阿拉丁照明人才网 job.alighting.cn
    发表于 10-23 09:56

    百度无人驾驶车北京完成路测

    。 据了解,百度无人驾驶车项目起于2013年,由百度研究院主导研发,其技术核心是“百度汽车大脑”,包括高精度地图、定位、感知、智能决策与控制四大模块。
    发表于 12-12 16:53

    中马研究院正式挂牌成立

    `  12月30日下午,中马研究院于园区正式挂牌成立,园区管委会副主任杨健豪、主任助理曹全来出席并为研究院揭牌,园区管委会经济发展局全体成员见证揭牌。  中马研究院旨在打造“立足中马、面向东盟的新型
    发表于 01-07 16:02

    百度地图离线API调用教程

    前言:对百度地图的使用已经成为了我们生活中的一部分,对于习惯使用百度地图的朋友来说更是不可或缺。但是如果没有网络的话就不能正常使用百度地图的服务,制作一款离线地图在这个时候就显得尤为重要,那我们应该
    发表于 01-24 09:42

    百度竞价排名这件事你怎么看?

    `魏则西事件炸出了百度竞价排名的黑幕但事实上百度竞价排名并不是什么新鲜玩意相信很多喜欢用百度一下的亲们都知道很多情况下搜索排名的前几条都不是你想要的答案小编曾经年少无知的时候也曾错信过
    发表于 05-03 15:24

    百度总裁:百度在人工智能领域已有重大突破

      随着阿法狗大战李世石,人工智能引发越来越多的关注。百度总裁张亚勤28日表示,百度长期坚持技术创新,2015年研发投入超过100亿元,目前在人工智能领域已有重大突破。  张亚勤在天津夏季达沃斯论坛
    发表于 07-01 15:22

    中科海西研究院泉州装备制造研究所现代电机控制与电力电子实验室招聘公告

    与团队合作精神;5. 有研发团队的管理工作经历优先。三、福利待遇 参照中科海西研究院(福建物质结构研究所)相应规定给予薪酬等待遇,年底有项目奖金; 符合泉州市及所属县(市、区)相关政策的创业创新
    发表于 06-30 16:27

    百度深度学习研究院科学家深度讲解人工智能

    的研发经验。在过去的工作中,他发表过论文十余篇,申请中国专利超过100项,其中已经授权的有95项。他曾任职百度深度学习研究院,负责人脸识别方向,曾经多次带领团队在主流的人脸检测、人脸识别竞赛上取得
    发表于 07-19 10:01

    百度深度学习研究院科学家分享:机器视觉开发实战经验

    其实就是计算机科学的一个分支,将来也是会成为人类社会基础设施的一部分。现在我们邀请来百度深度学习研究院科学家,为大家分享人工智能视觉开发的经验。点击报名直播观看:http
    发表于 07-20 11:06

    Firefly 百度人脸识别开发套件

    `Firefly推出了百度人脸识别套件,基于Firefly高性能主板,融合百度AI精准的离线人脸识别技术,集算法与软硬件为一体的开发平台。仅需一个套件,可一站式轻松解决人工智能算法、硬件、软件的开发
    发表于 07-25 10:19

    延迟和指令呈现百度人工智能交互设计的最新研究

    有屏智能设备的多维对话:延迟和指令呈现百度人工智能交互设计最新研究
    发表于 05-25 09:46

    百度研究院对AI产业的预测

    百度研究院发布2020十大科技趋势预测,从2019年科技的蓬勃发展中提前展望2020。作为2019年度最受关注的科技热词之一,“AI”自然成为了焦点。百度研究院也对AI产业给
    的头像 发表于 12-26 16:06 3622次阅读