0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一款比特率极低的高质量语音编解码器

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-03-30 14:03 次阅读

通过语音和视频通话与他人在线联系逐渐成为日常生活的一部分,这得益于 WebRTC 等实时通信框架,而后者依靠高效的压缩技术和编解码器,解码或编码传输和存储的信号。数十年来,编解码器一直是媒体应用的重要组成部分,可使需要占用大量带宽的应用高效传输数据,支持用户随时随地进行高质量通信。

因此,在开发视频和音频编解码器时,一项长期目标就是提高信号质量,减少数据使用,以及最大程度降低实时通信延迟。虽然与音频相比,视频貌似会占用更多带宽,但现代视频编解码器能够实现比较低的比特率,甚至可能低于目前某些高质量语音编解码器所能达到的值。将低比特率视频和语音编解码器相结合,即使在低带宽网络中也能实现高质量的视频通话体验。但是根据过往经验,音频编解码器的比特率越低,语音信号的清晰度就越差,声音也越像机器人。此外,尽管部分人可以访问稳定的高质量、高速网络,但这种网络连接水平并不普遍,即便在网络良好的地区,有时也会遇到质量差、带宽低和网络拥堵的情况。

为解决这一问题,我们构建了 Lyra。这是一款比特率极低的高质量语音编解码器,即使在最慢的网络上也可以实现语音通信。为此,我们采用传统编解码器技术,同时利用机器学习 (ML) 的优势,使用基于数千小时数据进行训练的模型,创造出一种全新的语音信号压缩与传输方法。

Lyra 概览

Lyra 编解码器的基础架构非常简单。每隔 40 毫秒,该编解码器都会从语音中提取特征或独特的语音属性,将其压缩后传输。这些特征本身为对数梅尔声谱图,是一系列代表不同频段语音能量的数字,因其根据人类的听觉反应建模,具有感知相关性,所以一直以来得以应用于相关领域。在另一端,生成模型使用这些特征重建语音信号。就这一点来说,Lyra 与其他传统参数编解码器非常相似,如 MELP。

但是,传统参数编解码器只是简单地从语音中提取关键参数,然后在接收端用参数重建信号,虽然可以实现低比特率,但声音往往听起来像机器人一样,并不自然。这些缺点促使相关人员开发新一代高质量音频生成模型,这些模型不仅能够区分信号,还可以生成全新的信号,为这一领域带来了巨大变革。DeepMind WaveNet 为首个生成模型,为之后的模型铺平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丢包隐藏系统,就是将此技术用于真实场景的成果。

Lyra 压缩的全新方法

以这些模型为基准,我们开发了一个全新的模型,能够使用少量数据重建语音。Lyra 利用这些强大的新型自然语音生成模型,确保将参数编解码器的比特率维持在较低水平,同时实现较高质量,达到与当今大多数直播和通信平台所用顶尖波形编解码器相当的表现。波形编解码器的缺点在于,要达到这种高质量水平,必需逐一压缩和发送信号样本,这需要更高的比特率,并且在大多数情况下,并不是实现自然语音的必要条件。

生成模型的一个问题在于其计算复杂度。Lyra 使用成本更低的递归生成模型,即 WaveRNN 变体,从而避免了这一问题。该模型以较低的比特率运行,但可并行生成频率范围不同的多个信号,然后以所需采样率将其组合为单个输出信号。得益于这一设计,Lyra 不仅可以在云服务器上运行,还可以在中档手机设备上实时运行(处理延迟为 90 毫秒,与其他传统语音编解码器相当)。与 WaveNet 类似,此生成模型基于数千小时的语音数据训练,可准确重建输入的音频。

与现有编解码器对比

自 Lyra 问世以来,我们一直致力于以远低于现有编解码器的比特率实现最高的音频质量。目前,免版税的开源编解码器 Opus 是 WebRTC 型 VOIP 应用中使用最广泛的编解码器,在音频为 32 Kbps 时,通常可以实现与原始语音几无差别的语音质量。然而,尽管 Opus 可以在带宽受限的环境中运行,且比特率最低可达 6 Kbps,但声音质量会明显下降。Speex、MELP、AMR 等其他编解码器虽然也能够实现与 Lyra 相当的比特率,但声音皆会失真,听起来像机器人一样。

根据目前的设计,Lyra 会以 3 Kbps 的比特率运行。听音测试表明,Lyra 在该比特率下的性能优于其他所有编解码器,并且与 Opus 在 8 Kbps 比特率下的表现相当,因此可节省 60% 以上的带宽。在带宽条件不足以满足较高比特率,且现有低比特率编解码器无法实现所需质量时,可以使用 Lyra。

确保公平

与所有基于 ML 的系统一样,必须对模型进行训练,确保其满足所有人的需求。我们利用开源音频库对 Lyra 进行训练,音频数据长达数千个小时,涵盖 70 余种语言,然后与专家和众包听众一同验证音频质量。

我们设计 Lyra 的一个目标在于确保人人都能获得高质量的音频体验。用于训练 Lyra 的数据集范围广泛,涵盖多种语言,可确保编解码器能够稳健应对可能遇到的任何情况。

社会影响和我们未来的发展方向

无论从短期还是长期来看,Lyra 等技术都具有重要而广泛的影响。有了 Lyra,数十亿新兴市场的用户就能使用高效的低比特率编解码器,获得远高于以往的音频质量。此外,Lyra 也可用于云环境,帮助使用不同网络和设备的用户顺畅地聊天。将 Lyra 与 AV1 等全新视频压缩技术相结合,可为较差网络环境中的视频聊天提供支持。用户即使通过调制解调器拨号上网,网速只有 56 Kbps,也可以进行视频聊天。

Duo 已使用 ML 来减少音频中断,目前正推出 Lyra,以求在连接带宽极低时,提高语音通话的质量和可靠性。我们将继续优化 Lyra 的性能和质量,以尽可能地提高技术的可用性,同时还会开展 GPU 加速和 TPU 加速的相关研究。我们还将着手研究如何基于这些技术开发比特率较低的通用音频编解码器,即音乐和其他非语音用例。

原文标题:推出 Lyra:用于语音压缩的新型极低比特率编解码器

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131479
  • 机器学习
    +关注

    关注

    66

    文章

    8112

    浏览量

    130546

原文标题:推出 Lyra:用于语音压缩的新型极低比特率编解码器

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    国产可编程振荡器在视频编解码器中的应用,兼容SiTime

    国产可编程振荡器在视频编解码器中的应用,兼容SiTime
    的头像 发表于 04-17 09:39 49次阅读
    国产可编程振荡器在视频<b class='flag-5'>编解码器</b>中的应用,兼容SiTime

    视频编解码器-晶振应用选型方案简介

    随着科技的日新月异,视频编解码技术也将迎来新的发展机遇,5G网络的普及将进一步提升视频传输速度和质量,为视频编解码器的发展提供更广阔的空间。
    的头像 发表于 12-09 10:55 463次阅读
    视频<b class='flag-5'>编解码器</b>-晶振应用选型方案简介

    使用具备SigmaDSP内核的编解码器是否必须载入SigmaDSP程序才能使用?

    目前预计使用ADAU1761连接两个MEMS数字麦克风, ADAU1761与ADAU1361相比, ADAU1761多了SigmaDSP内核. 使用具备SigmaDSP内核的编解码器是否必须
    发表于 11-30 07:31

    密勒调制副载波编解码器的FPGA实现

    电子发烧友网站提供《密勒调制副载波编解码器的FPGA实现.pdf》资料免费下载
    发表于 10-26 11:10 0次下载
    密勒调制副载波<b class='flag-5'>编解码器</b>的FPGA实现

    基于VHDL语言的HDB3码编解码器设计

    电子发烧友网站提供《基于VHDL语言的HDB3码编解码器设计.doc》资料免费下载
    发表于 10-13 09:22 0次下载
    基于VHDL语言的HDB3码<b class='flag-5'>编解码器</b>设计

    如何在嵌入式系统中使用音频编解码器更轻松地优化音频性能?

    作者:Jacob Beningo 许多设计人员在其基于微控制器的嵌入式系统设计中加入了音频编解码器,以提供高保真音频。但在这样做之前,他们必须弄清楚如何对其应用进行音频编解码器调校。如果不进行调校
    的头像 发表于 10-03 14:34 608次阅读
    如何在嵌入式系统中使用音频<b class='flag-5'>编解码器</b>更轻松地优化音频性能?

    实时低比特率高质量ABR视频转码的HPE参考架构

    电子发烧友网站提供《实时低比特率高质量ABR视频转码的HPE参考架构.pdf》资料免费下载
    发表于 09-13 10:38 0次下载
    实时低<b class='flag-5'>比特率</b><b class='flag-5'>高质量</b>ABR视频转码的HPE参考架构

    RZ/V2MA 视频编解码器集成指南(Rev.0.95)

    RZ/V2MA 视频编解码器集成指南 (Rev.0.95)
    发表于 06-30 19:23 0次下载
    RZ/V2MA 视频<b class='flag-5'>编解码器</b>集成指南(Rev.0.95)

    RZ/V2MA 视频编解码器集成指南(Rev.0.96)

    RZ/V2MA 视频编解码器集成指南 (Rev.0.96)
    发表于 06-29 19:18 0次下载
    RZ/V2MA 视频<b class='flag-5'>编解码器</b>集成指南(Rev.0.96)

    ES8336低功耗音频编解码器规格书

    ES8336低功耗音频编解码器规格书
    发表于 06-13 18:13 3次下载

    如何获得ESP8266上的opus编解码器

    立体声 I2S 输出参考应用程序(可能从 youtube 或 soundcloud 播放些音乐)。如果存在大小问题,可以将 opus 源剥离为语音(低比特率)或 celt(高比特率
    发表于 06-12 06:54

    imx8mp - wm8962编解码器音频的问题求解

    我的音频编解码器 - WM8962 有问题。 我在自己的平台上工作,以 imx8mp-devkit 为模型。 图表: 将设备添加到设备树: reg_audio_pwr: 调节
    发表于 06-09 07:50

    如何将多个AK5554编解码器与i.MX8MN SAI线集成?

    我目前正在从事个项目,涉及在 i.MX8MN 平台上将两个 AK5554 编解码器与同条 SA5I 线路集成。我的目标是以这样种方式配置系统,使其有效地充当八个音频通道,所有通道
    发表于 05-18 06:15

    TLV320AIC3100音频编解码器启动问题求解

    嗨,团队,我们正在研究 IXM8MM 定制板。我们使用带有 imx8mm 和 Android 11 代码库的 tlv320aic3100 音频编解码器。面临些与MCLK相关的问题。当我尝试
    发表于 05-17 08:03

    RZ/V2MA 视频编解码器集成指南(Rev.0.96)

    RZ/V2MA 视频编解码器集成指南 (Rev.0.96)
    发表于 05-12 19:26 0次下载
    RZ/V2MA 视频<b class='flag-5'>编解码器</b>集成指南(Rev.0.96)