0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

妥妥媲美真人!火山语音发布超自然对话语音合成技术

话说科技 来源:话说科技 作者:话说科技 2022-09-16 10:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,网上就出现了这样一段由两位女声组合而成的音频片段。在音频中,两位女生追忆了自己当年第一次听到周杰伦的心情,还对周董的音乐风格进行了解读,两人一问一答,时长长达近3分钟。

可是,当大家听着这段音频节目,也沉浸在对那时青葱岁月的美好追忆时,你可曾想到,这段对话,竟然是语音合成的!

提到“语音合成”,你脑海中可能会出现这样的种种:

·导航中种类丰富但语气机械的“前方路口左转”

·接电话时,对面笨拙无感情的“您好,这里是xx信用卡中心

·视频网站上,十个解说视频九个声音相同,看到就想赶快划走的“注意看,这个男人叫小帅”…...

而如今,语音合成技术竟然已经能达到“天衣无缝”的完美自然效果,就好像真人在对话一样,直接颠覆了许多人的刻板印象。而这段音频的发布者火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队,为了更好地向大众解密里面的技术亮点,又提供了两段音频——一段,是传统的语音合成技术效果,另一段,却来自火山语音的全新技术。两段音频输入的文本完全相同—— “南方菜系偏爱蘸料,例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料” ,但听上去,合成的音频效果却有明显差异,第二段来源于火山语音团队的音频,用上了本次上新的超自然对话语音合成技术,格外自然,几乎与真人无异。

回想一下人在日常表达时的状态,大脑处理信息是需要思考时间的。体现到语言上,人就会不由自主的出现一些犹豫、拖音、倒装,甚至是说了一半改口、结巴重复的情况,也会刻意加重读音强调想表达的重点信息。这就带来了大量难以观测的细微表达。这些现象在传统的TTS中难以被捕捉还原。而这些细微之处的完美复现正是让声音真假难辨的奥妙之源,也是上述音频的奥秘所在。

具体来说,火山语音团队最新发布的超自然对话语音合成技术相较传统TTS更加真实自然,即语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统被完美复现,而且只需常规音库1/4数据,就可完美还原真人说话细微的韵律特点、发音口癖,让合成效果更加真实。有专业评测结果显示,火山语音的这项新技术与真人录音对比基本没有差距,难以被评测者分辨出来。此外这项技术目前已在视频配音、电话客服等多个场景投入应用,近日即将上线火山引擎语音技术官网对外露出。

这么厉害的技术,究竟是怎么办到的?

据介绍,上述这些在实际交流中经常出现的倒吸气、吞音、思考时不由自主的拖长字音、低笑等表现被称为副语言现象(paralanguage),尽管这是人脑思考、表达过程中最真实的表现,但由于传统的语音合成技术框架无法对分布稀疏的副语言现象进行有效建模,所以在说话时的韵律还原度表现有限、过于“正确”。

基于上述难点,火山语音超自然语音合成技术分别从文本和语音建模两个层面进行突破,具体来说:

·在文本层面,火山语音采用了生成式的风格迁移模型,模仿真人说话的方式对文本进行可控的口语化转写,让文本更好地拥抱口语化,避免最终效果太过书面。

·在语音层面,团队则是通过文本分析模型的突破,在TTS的输入侧额外增加了副语言预测,模仿真人的发音特点来实现自然自发的语音效果。

值得一提的是,团队通过使用无监督特征的TTS建模方案,有效提高了模型的稳定性与表现力,仅仅使用常规音库1/4的数据规模,就可以实现十分自然多变的韵律效果,很赞吧?

article-body

致力文本口语化 让“拟真人表达”跃然纸上

文本作为语音合成技术的输入,其风格是否贴近真人的表达方式,是合成效果提升的第一步;但受限于根深蒂固的书写用语习惯,大多数合成前的文本并不够自然,或者需要投入大量精力不断调整,费时费力。为了解决此类问题,火山语音团队采用了两阶段方案并取得了不错的效果:

·阶段一:采用自监督方法,使用伪数据对口语化模型进行预训练,降低了数据量的需求;同时在模型中引入了指针网络结构,增强了文本可控性。

·阶段二:利用少量优质的人工标注数据,对预训练好的口语化模型进行微调,最终实现可控的、自然的口语化文本效果。

article-body

为了更好地还原真人,区别于传统的语音合成技术,火山语音在副语言建模和韵律多样性上也分别进行了深入研究。在副语言建模方面,团队推出的合成技术实现了声学模型对自然表达中出现的吸气、笑声、犹豫、修正等多种副语言现象建模,并且结合文本的语义信息自动插入副语言现象。在插入过程中同时考虑合理性与随机性,表现更加自然真实。

副语言建模+韵律多样性可圈可点 语音真实感全面升级

“在韵律多样化的探究中,我们结合无监督表征学习技术,自主研发了高表现力的声学模型框架,通过发音、韵律、音色解耦等方式,不但降低了数据量的需求,实现对出现频率极低发音现象的高效建模;同时使用无监督表征特征并结合音素级别的基频、能量信息等,实现了韵律的自然多变,促成高质量对话语音生成。”火山语音团队总结道。

article-body

火山语音,字节跳动AI Lab Speech&Audio智能语音与音频团队,长期以来面向抖音、剪映、番茄小说、飞书等业务提供领先的AI语音技术能力及全栈语音产品解决方案,并通过火山引擎向外部企业开放技术服务。(作者:张扬)

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音机器人交互系统:核心技术与应用挑战

          语音机器人交互系统是融合多学科技术的复杂工程,其核心目标是实现人与机器间的自然、流畅语音对话。该系统已广泛应用于智能客服、智能家
    的头像 发表于 09-02 11:08 572次阅读

    基于开源鸿蒙的语音识别及语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。
    的头像 发表于 08-25 14:26 3636次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b>识别及<b class='flag-5'>语音</b><b class='flag-5'>合成</b>应用开发样例

    TTS文字合成语音芯片的使用场景

    TTS文字合成语音播报芯片的使用场景非常广泛,可以适用于各行各业,主要应用于复杂的语音播报场景,下面小编带大家一起来了解一下。 传统的语音播报芯片,主要是先把语音存入FLASH当中,然
    的头像 发表于 08-22 17:11 839次阅读

    从开发工程师视角看TTS语音合成芯片

    从开发工程师视角看TTS语音合成芯片 在语音交互领域,TTS 语音合成芯片作为关键角色,正不断革新着人机
    的头像 发表于 08-13 14:52 657次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、
    的头像 发表于 08-04 11:43 1381次阅读

    Air8000 TTS开源,语音合成从此“零距离”!

    技术不应有围墙,创新需要共生长。Air8000宣布TTS应用源代码全面开放,开发者可自由定制语音风格、优化合成效果,让文字与声音的对话,不再受限于黑箱算法。 TTS (Text-to-
    的头像 发表于 07-03 16:33 474次阅读
    Air8000 TTS开源,<b class='flag-5'>语音</b><b class='flag-5'>合成</b>从此“零距离”!

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    ,提高语音识别的准确率;同时也可连接高质量的扬声器,确保语音合成后的声音清晰、自然。TF卡接口能够存储大量的语音数据、
    发表于 05-28 11:36

    大模型时代的新燃料:大规模拟真多风格语音合成数据集

    大模型充分学习到语音的发音规律、语义特征、语境等信息,从而提升语音识别、语音合成等关键能力,提供更加准确、自然、智能的
    的头像 发表于 04-30 16:17 541次阅读

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    一、行业应用背景在零售业态智能化转型的浪潮中,收银设备正经历从功能型向服务型转变的关键阶段。WT3000T8语音合成芯片应运而生,专为满足新零售场景下智能收银终端的语音交互需求而设计。该芯片通过创新
    的头像 发表于 04-24 08:45 633次阅读
    智能收银<b class='flag-5'>语音</b>交互新标杆—WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b>芯片TTS<b class='flag-5'>技术</b>应用解析

    话语音配线架怎么接线

    话语音配线架的接线方法主要根据线缆类型、配线架规格及具体应用场景选择直接连接、跳线连接等方式,并需遵循色谱线序规范进行打线操作。以下为具体步骤: 一、接线前的准备工作 工具与材料准备 工具:剥线钳
    的头像 发表于 04-10 10:36 2093次阅读

    【CW32模块使用】语音合成播报模块

    SYN6288E 中文语音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/价比更高的 SYN6288 芯片的基础上更改封装方式的,效果更自然的一款中高端语音
    的头像 发表于 03-29 17:25 1004次阅读
    【CW32模块使用】<b class='flag-5'>语音</b><b class='flag-5'>合成</b>播报模块

    芯资讯|WT3000T8语音合成芯片:高性价比语音交互解决方案

    在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的语音处理能力、灵活的控制模式及超低功耗设计,成为工业控制
    的头像 发表于 03-24 09:05 868次阅读
    芯资讯|WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b>芯片:高性价比<b class='flag-5'>语音</b>交互解决方案

    聆思CSK6大模型语音开发板接入DeepSeek资料汇总(包含深度求索/火山引擎/硅基流动华为昇腾满血版)

    调用DeepSeek节点,最终将大模型输出的结果进行语音合成实现端侧播报 下载工程模板导入,配置参数后绑定开发板ID即可。 关键参数说明(以火山引擎版为例): HOST
    发表于 03-06 17:02

    详解语音识别技术在通信领域中的应用

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行分析和识别,将人类的
    的头像 发表于 02-21 17:05 1039次阅读
    详解<b class='flag-5'>语音</b>识别<b class='flag-5'>技术</b>在通信领域中的应用

    基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活

    随着科技的飞速发展,智能家居产品正逐步渗透到我们的日常生活中,其中智能闹钟作为时间管理的得力助手,也在不断进化。基于W2605C语音识别与语音合成芯片的智能语音交互闹钟,凭借其强大的联
    的头像 发表于 12-31 11:54 1437次阅读