0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一款比特率极低的高质量语音编解码器

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-03-30 14:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

通过语音和视频通话与他人在线联系逐渐成为日常生活的一部分,这得益于 WebRTC 等实时通信框架,而后者依靠高效的压缩技术和编解码器,解码或编码传输和存储的信号。数十年来,编解码器一直是媒体应用的重要组成部分,可使需要占用大量带宽的应用高效传输数据,支持用户随时随地进行高质量通信。

因此,在开发视频和音频编解码器时,一项长期目标就是提高信号质量,减少数据使用,以及最大程度降低实时通信延迟。虽然与音频相比,视频貌似会占用更多带宽,但现代视频编解码器能够实现比较低的比特率,甚至可能低于目前某些高质量语音编解码器所能达到的值。将低比特率视频和语音编解码器相结合,即使在低带宽网络中也能实现高质量的视频通话体验。但是根据过往经验,音频编解码器的比特率越低,语音信号的清晰度就越差,声音也越像机器人。此外,尽管部分人可以访问稳定的高质量、高速网络,但这种网络连接水平并不普遍,即便在网络良好的地区,有时也会遇到质量差、带宽低和网络拥堵的情况。

为解决这一问题,我们构建了 Lyra。这是一款比特率极低的高质量语音编解码器,即使在最慢的网络上也可以实现语音通信。为此,我们采用传统编解码器技术,同时利用机器学习 (ML) 的优势,使用基于数千小时数据进行训练的模型,创造出一种全新的语音信号压缩与传输方法。

Lyra 概览

Lyra 编解码器的基础架构非常简单。每隔 40 毫秒,该编解码器都会从语音中提取特征或独特的语音属性,将其压缩后传输。这些特征本身为对数梅尔声谱图,是一系列代表不同频段语音能量的数字,因其根据人类的听觉反应建模,具有感知相关性,所以一直以来得以应用于相关领域。在另一端,生成模型使用这些特征重建语音信号。就这一点来说,Lyra 与其他传统参数编解码器非常相似,如 MELP。

但是,传统参数编解码器只是简单地从语音中提取关键参数,然后在接收端用参数重建信号,虽然可以实现低比特率,但声音往往听起来像机器人一样,并不自然。这些缺点促使相关人员开发新一代高质量音频生成模型,这些模型不仅能够区分信号,还可以生成全新的信号,为这一领域带来了巨大变革。DeepMind WaveNet 为首个生成模型,为之后的模型铺平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丢包隐藏系统,就是将此技术用于真实场景的成果。

Lyra 压缩的全新方法

以这些模型为基准,我们开发了一个全新的模型,能够使用少量数据重建语音。Lyra 利用这些强大的新型自然语音生成模型,确保将参数编解码器的比特率维持在较低水平,同时实现较高质量,达到与当今大多数直播和通信平台所用顶尖波形编解码器相当的表现。波形编解码器的缺点在于,要达到这种高质量水平,必需逐一压缩和发送信号样本,这需要更高的比特率,并且在大多数情况下,并不是实现自然语音的必要条件。

生成模型的一个问题在于其计算复杂度。Lyra 使用成本更低的递归生成模型,即 WaveRNN 变体,从而避免了这一问题。该模型以较低的比特率运行,但可并行生成频率范围不同的多个信号,然后以所需采样率将其组合为单个输出信号。得益于这一设计,Lyra 不仅可以在云服务器上运行,还可以在中档手机设备上实时运行(处理延迟为 90 毫秒,与其他传统语音编解码器相当)。与 WaveNet 类似,此生成模型基于数千小时的语音数据训练,可准确重建输入的音频。

与现有编解码器对比

自 Lyra 问世以来,我们一直致力于以远低于现有编解码器的比特率实现最高的音频质量。目前,免版税的开源编解码器 Opus 是 WebRTC 型 VOIP 应用中使用最广泛的编解码器,在音频为 32 Kbps 时,通常可以实现与原始语音几无差别的语音质量。然而,尽管 Opus 可以在带宽受限的环境中运行,且比特率最低可达 6 Kbps,但声音质量会明显下降。Speex、MELP、AMR 等其他编解码器虽然也能够实现与 Lyra 相当的比特率,但声音皆会失真,听起来像机器人一样。

根据目前的设计,Lyra 会以 3 Kbps 的比特率运行。听音测试表明,Lyra 在该比特率下的性能优于其他所有编解码器,并且与 Opus 在 8 Kbps 比特率下的表现相当,因此可节省 60% 以上的带宽。在带宽条件不足以满足较高比特率,且现有低比特率编解码器无法实现所需质量时,可以使用 Lyra。

确保公平

与所有基于 ML 的系统一样,必须对模型进行训练,确保其满足所有人的需求。我们利用开源音频库对 Lyra 进行训练,音频数据长达数千个小时,涵盖 70 余种语言,然后与专家和众包听众一同验证音频质量。

我们设计 Lyra 的一个目标在于确保人人都能获得高质量的音频体验。用于训练 Lyra 的数据集范围广泛,涵盖多种语言,可确保编解码器能够稳健应对可能遇到的任何情况。

社会影响和我们未来的发展方向

无论从短期还是长期来看,Lyra 等技术都具有重要而广泛的影响。有了 Lyra,数十亿新兴市场的用户就能使用高效的低比特率编解码器,获得远高于以往的音频质量。此外,Lyra 也可用于云环境,帮助使用不同网络和设备的用户顺畅地聊天。将 Lyra 与 AV1 等全新视频压缩技术相结合,可为较差网络环境中的视频聊天提供支持。用户即使通过调制解调器拨号上网,网速只有 56 Kbps,也可以进行视频聊天。

Duo 已使用 ML 来减少音频中断,目前正推出 Lyra,以求在连接带宽极低时,提高语音通话的质量和可靠性。我们将继续优化 Lyra 的性能和质量,以尽可能地提高技术的可用性,同时还会开展 GPU 加速和 TPU 加速的相关研究。我们还将着手研究如何基于这些技术开发比特率较低的通用音频编解码器,即音乐和其他非语音用例。

原文标题:推出 Lyra:用于语音压缩的新型极低比特率编解码器

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3906

    浏览量

    141549
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136271

原文标题:推出 Lyra:用于语音压缩的新型极低比特率编解码器

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于E203 RISC-V的音频信号处理系统 -CODEC(音频编解码器)配置

    CODEC介绍 本设计采用的音频编解码器是WM8731,该编解码器可以通过I2C进行寄存配置,可以调节主从模式、数据位数可设置为16bit、24bit、32bit。可以设置的传输模式为I2S、DSP等模式。 寄存
    发表于 10-28 06:29

    增强T-BOX设计,新唐编解码器的重要作用

    。 T-BOX音频架构: T-BOX 音频架构的主要特点包括: 独立电源管理系统 双麦克风音频处理 编解码器、D类音频放大器和车载信息娱乐系统(IVI)的分离 新唐科技推出两专为车规级应用设计的低功耗、高
    发表于 09-05 06:26

    视耀T1 MINI-4路4K编解码器丨端到端超低延时赋能4K超清视界

    富视智通推出的视耀T1 MINI编解码器一款具备低延时、高密度集成及全场景兼容性等优质特性的明星产品。该设备支持4路独立4Kp60 H.265/HEVC编解码,1路AVC 1080p编解码
    发表于 08-28 13:43

    如何使用 M487 微控制和外部音频编解码器NAU88L25将 AMR 格式的声音录制到 MicroSD 卡中?

    使用 M487 微控制和外部音频编解码器NAU88L25将 AMR 格式的声音录制到 MicroSD 卡中
    发表于 08-20 06:28

    一款低功耗、高质量的24位立体声编解码器-CJC8972

    24位立体声编解码器通过数字信号处理实现高精度音频编码与解码,核心在于对立体声信号的数字化处理及还原。
    的头像 发表于 08-07 09:22 1046次阅读
    <b class='flag-5'>一款</b>低功耗、<b class='flag-5'>高质量</b>的24位立体声<b class='flag-5'>编解码器</b>-CJC8972

    Texas Instruments TAC5x42接口编解码器数据手册

    Texas Instruments TAC5x42接口编解码器包括低功耗立体声音频模数转换 (ADC) 和音频数模转换 (DAC),集成了丰富的功能。这些支持时分复用 (TDM)、左对齐 (LJ
    的头像 发表于 07-14 14:43 587次阅读
    Texas Instruments TAC5x42接口<b class='flag-5'>编解码器</b>数据手册

    Texas Instruments TAC5311-Q1汽车单声道音频编解码器数据手册

    Texas Instruments TAC5311-Q1汽车单声道音频编解码器一款低功耗单声道编解码器,具有10V~RMS ~差分输入、104dB ADC和2V~RMS~ 差分输出、114dB
    的头像 发表于 07-09 15:35 704次阅读
    Texas Instruments TAC5311-Q1汽车单声道音频<b class='flag-5'>编解码器</b>数据手册

    CYW20721内置的所有编解码器类型有哪些?

    您能告诉我们 CYW20721 内置的所有编解码器类型吗? LDAC、LC3(LE 音频)、AAC、SBC 等。
    发表于 06-27 08:03

    AI玩具爆发,音频编解码器如何满足语音交互需求

    电子发烧友网综合报道,在AI玩具已经开始逐渐爆发的当下,人机交互已经成为标配功能,而最重要的便是语音控制。而语音控制的第步,便需要让AI玩具听懂你在说什么这就需要用到音频编解码器
    的头像 发表于 06-20 01:07 6941次阅读

    TPS65950 集成电源管理 IC (PMIC),具有 3 个 DC/DC、11 个 LDO、音频编解码器、USB HS收发数据手册

    TPS65950 器件是一款高度集成的电源管理和音频编码/解码器编解码器)集成电路 (IC),支持 OMAP™ 应用处理的电源和外设要
    的头像 发表于 04-28 14:38 651次阅读
    TPS65950 集成电源管理 IC (PMIC),具有 3 个 DC/DC、11 个 LDO、音频<b class='flag-5'>编解码器</b>、USB HS收发<b class='flag-5'>器</b>数据手册

    TWL6040 用于便携式应用的 8 通道高质量低功耗音频编解码器数据手册

    TWL6040 设备是具有高集成度的音频编码/解码器编解码器),可为便携式应用程序提供模拟音频编解码器功能,如 所示。该设备包含多个音频模拟输入和输出,以及麦克风偏置和附件检测。该
    的头像 发表于 04-27 17:52 777次阅读
    TWL6040 用于便携式应用的 8 通道<b class='flag-5'>高质量</b>低功耗音频<b class='flag-5'>编解码器</b>数据手册

    TWL6041 用于便携式应用的 8 通道高质量低功耗音频编解码器数据手册

    TWL6041 是种具有高集成度的音频编解码器,为便携式应用程序提供模拟音频编解码器功能,如 所示。该设备包含多个音频模拟输入和输出,以及麦克风偏置和附件检测。该设备通过专有的 PDM 接口连接
    的头像 发表于 04-27 14:55 813次阅读
    TWL6041 用于便携式应用的 8 通道<b class='flag-5'>高质量</b>低功耗音频<b class='flag-5'>编解码器</b>数据手册

    一款专为便携式数字音频应用而设计的单声道编解码器-CJC8911

    Codec芯片 - CJC8911是个低功率,高质量的单声道编解码器,设计用于便携式数字音频应用程序。该设备集成了完整的接口到个出线端口的接口。片上数字信号处理执行图形均衡器,三维
    的头像 发表于 04-22 09:28 600次阅读
    <b class='flag-5'>一款</b>专为便携式数字音频应用而设计的单声道<b class='flag-5'>编解码器</b>-CJC8911

    EE-193:ADSP-BF535 Blackfin处理与AD73322L编解码器接口

    电子发烧友网站提供《EE-193:ADSP-BF535 Blackfin处理与AD73322L编解码器接口.pdf》资料免费下载
    发表于 01-06 14:17 0次下载
    EE-193:ADSP-BF535 Blackfin处理<b class='flag-5'>器</b>与AD73322L<b class='flag-5'>编解码器</b>接口

    TLV320AIC28音频编解码器评估模块

    电子发烧友网站提供《TLV320AIC28音频编解码器评估模块.pdf》资料免费下载
    发表于 12-20 16:02 0次下载
    TLV320AIC28音频<b class='flag-5'>编解码器</b>评估模块