0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌拟用WaveNetEQ技术提高Duo的通话质量 可自动判断且替换丢失的音频数据

工程师邓生 来源:雷锋网 作者:雷锋网 2020-04-08 16:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着 4G5G通信技术发展,网络通话越来越盛行。但是网络不稳定是常态,所以通话中我们时不时可能会蹦出一句,“你能再重复一遍吗,刚刚网络不太好。”为了提高通话质量,谷歌近期在视频聊天应用 Duo 中应用了一种新技术 WaveNetEQ ,在出现音频丢包情况时,该技术会判断丢失的音频数据可能是什么,并替换掉它。

背后的技术支持来自谷歌声名在外的 DeepMind 团队。

一个完整的在线呼叫,数据经常会被分成多个小块,每小块就是一个数据包 packet 。然而,在这些“数据包”从发送方传输到接收方的过程中,数据包通常会以错误的顺序到达,从而产生抖动相关问题,或者直接丢失,造成音频空白。

谷歌给出一份资料显示, Duo 99% 的通话都有数据包丢失、过度抖动或网络延迟情况。20% 的通话丢失了超过 3% 的音频,10% 的通话丢包率超过 8% ,也就是说每次通话都有很多音频需要替换。

每个视音频 app 都会用某种方式处理丢包。谷歌表示,这些数据包丢失隐藏 (PLC) 过程可能很难更好地填补 60 毫秒或更长时间的空白。过去常用算法是 NetEQ ,这是 webRTC 中音频技术方面的两大核心技术之一(另一核心技术是音频的前后处理,包括AEC、ANS、AGC等)。webRTC 是谷歌收购 GIPS 再开源的,是目前影响力极大的实时音视频通信解决方案,但用它处理丢包,大多情况下听起来像机器人机械重复。

谷歌就用了大量的语音数据,训练出了基于 DeepMind WaveRNN 技术的 WaveNetEQ 模型。训练数据集来自 100 多名、48 种不同语言的志愿者,也就是说它可以自动填补 48 种语言的丢包情况。

WaveNetEQ 是一种用于语音合成的递归神经网络模型,由两部分组成,即自回归网络(autoregressive network)和条件网络(conditioning network)。自回归网络的作用是保持信号的平稳流动,而条件网络控制和影响自回归网络以保持音频一致性。

谷歌用 WaveNetEQ 取代了原来的 NetEQ PLC 组件,相对于 NetEQ ,它在声音质感方面无疑有提升,而且 WaveNetEQ 模型跑得足够快,可以在手机上运行,如此也可以规避用户可能担心的数据隐私问题。谷歌称所有的处理都是在设备上进行,因为 Duo 的通话默认情况下就是端到端加密。一旦通话的真实音频恢复,将无缝地切换到现实对话。

不过,WaveNetEQ 替换的内容和时长有限制。目前是支持在 120 毫秒以内的空白,之后会逐渐消失并归零;WaveNetEQ 不是生成完整的单词,而是简单的音节。

目前 WaveNetEQ 已经应用到 Pixel 4 手机上的 Duo APP 中,谷歌表示,它正在将其推广到其他安卓手机上。

当然用机器学习处理音频丢包并不是头一遭,许多公司都在研究相关技术,以国内公司为例,有些是自身业务本就涉及视音频,比如腾讯;有些是音视频云服务商,比如阿里,还有一些是专门的音视频第三方服务商如声网等。
责任编辑:wv

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110263
  • 通话
    +关注

    关注

    0

    文章

    29

    浏览量

    9815
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12133
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ESP32 I2S音频总线学习笔记(二):I2S读取INMP441音频数据

    在这上一篇文章中,我们介绍了ESP32 I2S音频总线的相关知识,简要了解了什么是I2S总线、它的通信格式,以及相关的底层API函数,这篇文章将介绍一个小案例——ESP32驱动INMP441读取音频数据
    的头像 发表于 10-23 19:55 3588次阅读
    ESP32 I2S<b class='flag-5'>音频</b>总线学习笔记(二):I2S读取INMP441<b class='flag-5'>音频数据</b>

    国产32位高性能Audio音频数字信号处理器(DSP)芯片-DU561

    音频数字信号处理器(DSP)的工作原理主要通过数字化处理提升音频质量,其核心流程包括信号采集、处理和输出三个关键环节。
    的头像 发表于 10-22 09:47 339次阅读
    国产32位高性能Audio<b class='flag-5'>音频数</b>字信号处理器(DSP)芯片-DU561

    使用 APx500 软件检测音频毛刺与信号丢失

    在数字音频播放系统中,音频毛刺和信号丢失无疑是最令人困扰的问题之一。当一个设备丢失一个采样点时,这意味着什么?这意味着一个采样点被跳过,从那一刻起,整个波形在时间上向左平移了一个采样瞬
    的头像 发表于 10-20 09:02 291次阅读
    使用 APx500 软件检测<b class='flag-5'>音频</b>毛刺与信号<b class='flag-5'>丢失</b>

    即时通话软件音频传输质量测试方案介绍

    传输质量。即时通话软件基于移动网络链路传输信号,通过本套测试方案中配套的网络损伤仿真设备对传输链路添加不同的网络影响,模拟软件在不同网络环境下的使用情况,进而测得更接近真实应用场景下的音频传输
    的头像 发表于 08-10 15:21 3412次阅读
    即时<b class='flag-5'>通话</b>软件<b class='flag-5'>音频</b>传输<b class='flag-5'>质量</b>测试方案介绍

    解锁高品质音频体验:探索音频质量评估与测试的科学之道

    一、引言在数字化浪潮席卷的今天,音频质量直接影响着从VoIP通话、视频会议到智能音箱等应用的沉浸式体验。音频质量评估与测试,不仅是电信、广播
    发表于 07-22 11:15

    如何通过I2S使用CYW4373 HFP音频数据

    请教我使用 CYW4373 通过 I2S 使用 HFP 音频数据所需的步骤和供应商特定命令。 配对完成,SCO 已连接,数据正在通过 I2S 发送,但Bluetooth®耳机没有音频输出。此外
    发表于 07-17 07:43

    LE-Audio是什么?

    音频编解码、音频数据传输和音频控制方面进行了优化。与传统蓝牙音频相比,LE-Audio通过采用更高效的编码算法和改进的数据压缩
    发表于 06-28 21:32

    博鼎弹簧发布数字目录实现稳定高效易于操作的技术数据管理

    CADENAS****技术颠覆产品数据提供方式:一种全新的、行业领先的数字目录 Mollificio Bordignon公司是一家以生产各种高质量弹簧而闻名的公司,为了进一步提高产品数据
    发表于 05-23 10:52

    请问AD7768-4、ADAU1979的配套Evaluation Software能否进行原始音频数据

    请问AD7768-4、ADAU1979的配套Evaluation Software能否进行原始音频数据? 另外请问有没有MCU+AD架构的高精度、多通道的声卡的解决方案?
    发表于 04-15 07:53

    如何使用NXP S32K142/144中的Flexio在I2S中发送连续音频数据

    对于我的应用程序,我希望将连续的音频数据传输到我的放大器以获得连续的声音。我正在使用 S32K142/144 板。我正在使用 Flexio 进行 I2S 通信。请建议我应该遵循哪种方法来传输数据,即
    发表于 03-20 08:04

    LPC55S28修改音频数据格式后USB Aduio类异常的原因?

    您好 NXP 前辈,我已经更改了 LPC55S28 官方 SDK 上的 USB 音频数据格式。 我的主要问题是修改音频流格式类型描述符。 我的想法是将 USB Aduio 每个通道的数据字节数从 2
    发表于 03-20 07:33

    如何才能获取到Testmode下Sn65LVDS324的视频数据

    ,我们先采用Testmode测试数据, AR0331 配置的为 1channel 4-lanes 16bpp模式,sn65lvds324csr寄存器的csr 09[2:0]=3\'b110, csr
    发表于 01-22 06:20

    如何提高嵌入式代码质量

    嵌入式系统的发展已经深刻地影响了我们日常生活的方方面面,从智能家居到汽车控制系统,再到医疗设备和工业自动化等领域,嵌入式系统无处不在。嵌入式软件的质量直接关系到系统的安全性、稳定性和性能。因此,提高
    发表于 01-15 10:48

    判断膨胀石墨好坏的方法

    ,使其成为众多工业应用中的优选材料。然而,如何确定膨胀石墨的好坏,成为许多采购商和制造商关注的焦点。以下是一些判断膨胀石墨好坏的方法: 外观检测:初步判断
    的头像 发表于 01-09 15:09 1091次阅读

    为什么活动现场都是使用内部通话系统而不是对讲机?

    无论多好的对讲机,本质的核心技术采用半双工通信,同一个频道下听和说无法同时进行,通话时需要长按PTT按键,这对于直播现场的岗位很不适用,如导播需要双手操作切换台,摄像师需要操作摄像机等,这个时候
    发表于 12-16 16:19