一种语音合成系统,其包括:分割单元,其被配置成将对应于目标语音的音位串分割为多个节段,来产生第一节段序列;
选择单元,其被配置成基于第一节段序列通过组合多个语音单元产生对应于第一节段序列的多个第一语音单元串,并从所述多个第一语音单元串中选择一个语音单元串;和连接单元,其被配置成连接包含在所选择语音单元串中的多个语音单元,以产生合成语音,选择单元包括检索单元,其被配置成反复实施第一处理和第二处理,该第一处理基于对应于第二节段序列的最多W个(W为预定值)第二语音单元串产生对应于第三节段序列的多个第三语音单元串,所述第二节段序列作为第一节段序列中的部分序列,所述第三节段序列作为通过将节段添加给第二节段序列而获得的部分序列,第二处理从所述多个第三语音单元串中选择最多W个第三语音单元串,第一计算单元,其被配置成计算所述多个第三语音单元串中每个的总成本,第二计算单元,其被配置成基于涉及语音单元数据获取速度的限制来为所述多个第三语音单元串中的每个计算对应于总成本的惩罚系数,其中惩罚系数依赖于接近所述限制的程度,和第三计算单元,其被配置成通过使用惩罚系数修正总成本来计算所述多个第三语音单元串中每个的估计值,其中检索单元基于所述多个第三语音单元串中每个的估计值从所述多个第三语音单元串中选择最多W个第三语音单元串。
常用语音合成方法的比较
“未来的十年是语音技术的时代”。随着语音技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。语音合成技术是语音技术中十分实用的一项重要技术,它能解决人民大众的实际需求,能够深入到社会的各行各业中去。
语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。目前,常用的语音合成方法主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术。它们各有优缺点,人们在应用过程中往往将多种技术有机地结合在一起,或将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。
共振峰合成
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。
音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。
1)级联型共振峰模型
在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。
2)并联型共振峰模型
许多研究者认为,对于鼻化元音等非一般元音以及大部分辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。
3)混合型共振峰模型
在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比较,对于合成声源位于声道末端的语音(大多数的元音),级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。
共振峰模型是基于对声道的一种比较准确的模拟,因而可以合成出自然度比较高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规则,最终用于共振峰合成系统。
但是,人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上,因此,对于声道模型的不精确势必会影响其合成质量。另外,实际工作表明,共振峰模型虽然描述了语音中最基本最主要的部分,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。另外,共振峰合成器控制十分复杂,对于一个好的合成器来说,其控制参数往往达到几十个,实现起来十分困难。
基于这些原因,研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发,提出了基于波形拼接的合成技术,LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同,波形拼接合成是基于对录制的合成基元的波形进行拼接,而不是基于对发声过程的模拟。
LPC参数合成
波形拼接技术的发展与语音的编、解码技术的发展密不可分,其中LPC技术(线性预测编码技术)的发展对波形拼接技术产生了巨大的影响。LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。
LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外,由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度。
但是,由于自然语流中的语音和孤立状况下的语音有着极大的区别,如果只是简单地把各个孤立的语音生硬地拼接在一起,其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音+重放,对于合成整个连续语流LPC合成技术的效果是不理想的。因此,LPC合成技术必须和其他技术相结合,才能明显改善LPC合成的质量。
评论
查看更多