0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从Satin到Lyra为什么微软、谷歌都盯向音频编解码器?

LiveVideoStack 来源:LiveVideoStack 作者:LiveVideoStack 2021-05-24 15:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

回顾今年的2月份,可以说是音频编解码器最为热闹的一个月。先是微软宣布推出最新款由AI支持的音频编解码器——Satin。仅一周后,谷歌推出了用于语音压缩的新型超低比特率音频编解码器——Lyra,并且Android版本已开源。在此,也非常感谢来自国内音频领域的知名业内人士对本文发表评论及审校。

不难发现,硅谷大佬们对音频编解码器的深度研发进度已提上日程,对未来可应用的场景让人们充满期待。值得注意的是这两款音频编解码器都是基于AI的语音编码,但它们又有各自不同的特点。

Satin:用于实时通信的AI音频编解码器 作为一款由人工智能驱动的音频编解码器,Satin可以在网速6kbps时提供超宽频段的语音,17kbps时提供全频段的立体声音乐,网速越高,质量越高。

Satin旨在高丢包率下也提供良好的音频质量。此外,在冗余算法的改进下,可以应对突发丢包情况,提供更好的保护。以下是经过改进的弹性算法和Satin编解码器的最终效果: SILK@6kbps,突发数据包丢失(附加6kbps的冗余) Satin@6kbps,突发数据包丢失,改进的冗余算法(附加6kbps的冗余)

相对于Silk推出的超宽带语音,12kHz的频率,以24kHz的采样率(在人类声音超过12kHz的频率时,能量会迅速下降);Satin重新定义了超宽带,以覆盖16kHz的频率,采样率在32kHz,以提供更高的清晰度和稳定性,而其高效的压缩功能则可以实现6 kbps的超宽带语音。

4f0e8eb2-bc62-11eb-bf61-12bb97331649.png

/ t /一词在“ suit”一词中的频率分量。除了4 kHz的窄带截止甚至8 kHz的宽带截止以外,还有大量的能量。将能量保留在较高的频谱分量中会导致声音听起来更加自然。 以下分别为在6kbps下,Silk窄带和Satin超宽带的音频示例(建议使用耳机试听): 为了保证在6kbps超宽带下的语音质量,Satin使用对语音产生、建模和心理声学的深度理解来提取和编码信号的稀疏表达。

为了进一步降低所需的比特率,Satin只在较低的频带中编码和传输某些参数。在解码器上,Satin使用深层神经网络从接收到的低频带参数以及通过导线发送的最少量辅助信息中估计高频带参数。 虽然这种方法解决了在超低比特率下对使用超宽带语音的最大挑战,但也带来了计算复杂度的新挑战。对此,微软将重心放在对算法优化和循环向量化等技术上,使计算复杂度降低40%,并保障能够在所有用户的设备上运行。

4f31376e-bc62-11eb-bf61-12bb97331649.png

除此之外,微软还关注到了关于Satin的丢包数据恢复能力。对此,Satin对每个数据包进行独立编码,因此丢失一个数据包的效果不会影响后续数据包的质量。编解码器还被设计为有助于在内部参数域中隐藏高质量的丢包。这些功能可帮助Satin无缝处理随机丢失,一次丢失一个或两个数据包。

目前,Satin已被用于所有Teams和Skype两方通话,并将很快用于Teams会议。目前,它以6-36 kbps的比特率范围在宽带语音模式下运行,并且在不久的将来将扩展为以48 kHz的最大采样率支持全频带立体声音乐。

Lyra:一款用于语音压缩的新型超低比特率编解码器 Lyra是由谷歌团队研发并已开源了Android版本。它所拥有的能力在于能在3kbps网络带宽下为用户提供自然清晰的语音聊天,以及仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。(有关Lyra的详细介绍请浏览:在3kbps的带宽下还能清晰地语音聊天?)

对比Satin & Lyra:虽然这两个音频编解码器都能够在低比特率下进行操作,并通过AI提供动力,但它们有很大的不同。Lyra仅专注于窄带,而Satin则致力于超宽带。 另外,国内音频领域的知名业内人士指出:“在AI Codec领域中,有两种方式。一种是 end to end 也就是全AI,所以Lyra属于全AI结构

。而另一种是hybird结构,就是只有部分模块才使用AI,因此Satin是hybird结构。那么之所以现在才使用AI与音频编解码器结合,是因为在相同码率下,使用AI能够大幅提升音频质量。”

相关链接: https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ https://techcommunity.microsoft.com/t5/microsoft-teams-blog/satin-microsoft-s-latest-ai-powered-audio-codec-for-real-time/ba-p/2141382 https://bloggeek.me/lyra-satin-webrtc-voice-codecs/

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 宽带
    +关注

    关注

    4

    文章

    1045

    浏览量

    64030
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93982
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296612
  • 音频编解码器

    关注

    4

    文章

    155

    浏览量

    56654

原文标题:从Satin到Lyra 为何微软、谷歌都盯向音频编解码器?

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于E203 RISC-V的音频信号处理系统 -CODEC(音频编解码器)配置

    CODEC介绍 本设计采用的音频编解码器是WM8731,该编解码器可以通过I2C进行寄存配置,可以调节主从模式、数据位数可设置为16bit、24bit、32bit。可以设置的传输模
    发表于 10-28 06:29

    集成了32位RISC处理和SPDIF音频接口的音频编解码

    音频编解码器的工作原理主要涉及将音频信号转换为数字格式并进行压缩处理,以实现高效存储和传输。
    的头像 发表于 10-11 09:52 492次阅读
    集成了32位RISC处理<b class='flag-5'>器</b>和SPDIF<b class='flag-5'>音频</b>接口的<b class='flag-5'>音频</b><b class='flag-5'>编解码</b>

    新唐科技推出低延迟音频编解码器NAU88L21C

    Audio CODEC (Audio Coder-Decoder) 是音频编解码器”,主要功能是进行音频信号的编码(压缩)和解码(解压)。在音频
    的头像 发表于 09-30 09:25 5507次阅读
    新唐科技推出低延迟<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>NAU88L21C

    增强T-BOX设计,新唐编解码器的重要作用

    。 T-BOX音频架构: T-BOX 音频架构的主要特点包括: 独立电源管理系统 双麦克风音频处理 编解码器、D类音频放大器和车载信
    发表于 09-05 06:26

    如何使用 M487 微控制和外部音频编解码器NAU88L25将 AMR 格式的声音录制 MicroSD 卡中?

    使用 M487 微控制和外部音频编解码器NAU88L25将 AMR 格式的声音录制 MicroSD 卡中
    发表于 08-20 06:28

    Texas Instruments TAC5x42接口编解码器数据手册

    Texas Instruments TAC5x42接口编解码器包括低功耗立体声音频模数转换 (ADC) 和音频数模转换器 (DAC),集成了丰富的功能。这些支持时分复用 (TDM)、
    的头像 发表于 07-14 14:43 564次阅读
    Texas Instruments TAC5x42接口<b class='flag-5'>编解码器</b>数据手册

    Texas Instruments TAC5311-Q1汽车单声道音频编解码器数据手册

    Texas Instruments TAC5311-Q1汽车单声道音频编解码器是一款低功耗单声道编解码器,具有10V~RMS ~差分输入、104dB ADC和2V~RMS~ 差分输出、114dB
    的头像 发表于 07-09 15:35 691次阅读
    Texas Instruments TAC5311-Q1汽车单声道<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>数据手册

    CYW20721内置的所有编解码器类型有哪些?

    您能告诉我们 CYW20721 内置的所有编解码器类型吗? LDAC、LC3(LE 音频)、AAC、SBC 等。
    发表于 06-27 08:03

    AI玩具爆发,音频编解码器如何满足语音交互需求

    电子发烧友网综合报道,在AI玩具已经开始逐渐爆发的当下,人机交互已经成为标配功能,而最重要的便是语音控制。而语音控制的第一步,便需要让AI玩具听懂你在说什么这就需要用到音频编解码器。   音频
    的头像 发表于 06-20 01:07 6906次阅读

    TWL6040 用于便携式应用的 8 通道高质量低功耗音频编解码器数据手册

    TWL6040 设备是具有高集成度的音频编码/解码器编解码器),可为便携式应用程序提供模拟音频编解码
    的头像 发表于 04-27 17:52 750次阅读
    TWL6040 用于便携式应用的 8 通道高质量低功耗<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>数据手册

    TWL6041 用于便携式应用的 8 通道高质量低功耗音频编解码器数据手册

    TWL6041 是一种具有高集成度的音频编解码器,为便携式应用程序提供模拟音频编解码器功能,如 所示。该设备包含多个音频模拟输入和输出,以及
    的头像 发表于 04-27 14:55 787次阅读
    TWL6041 用于便携式应用的 8 通道高质量低功耗<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>数据手册

    EE-212:将AD74111单声道音频编解码器评估板连接到ADSP-21161N SHARC® EZ-KIT Lite板

    电子发烧友网站提供《EE-212:将AD74111单声道音频编解码器评估板连接到ADSP-21161N SHARC® EZ-KIT Lite板.pdf》资料免费下载
    发表于 01-08 14:27 0次下载
    EE-212:将AD74111单声道<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>评估板连接到ADSP-21161N SHARC® EZ-KIT Lite板

    国芯思辰| 单声道音频编解码器SC2601应用于录音笔,替换ES8311

    国芯思辰| 单声道音频编解码器SC2601应用于录音笔,替换ES8311
    的头像 发表于 01-07 10:33 1123次阅读
    国芯思辰| 单声道<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>SC2601应用于录音笔,替换ES8311

    TLV320AIC28音频编解码器评估模块

    电子发烧友网站提供《TLV320AIC28音频编解码器评估模块.pdf》资料免费下载
    发表于 12-20 16:02 0次下载
    TLV320AIC28<b class='flag-5'>音频</b><b class='flag-5'>编解码器</b>评估模块

    TAS25xx编解码器控制EVM手册

    电子发烧友网站提供《TAS25xx编解码器控制EVM手册.pdf》资料免费下载
    发表于 12-10 14:14 0次下载
    TAS25xx<b class='flag-5'>编解码器</b>控制EVM手册