0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ORTC与AI相互成就之道

LiveVideoStack 来源:LiveVideoStack 2023-06-26 09:06 次阅读

-01-

ORTC简介

c7b837bc-13ba-11ee-962d-dac502259ad0.png

首先简单介绍一下ORTC:它是OPPO实时音视频平台,是OPPO万物互融战略下的重要基础设施,面向终端和业务提供音视频实时通信基础能力。ORTC目前支持视频会议、视频通话、云游戏、云渲染等产品

c8656a04-13ba-11ee-962d-dac502259ad0.png

ORTC架构分为两部分,端侧和服务侧。端侧包括APP层、SDK层、核心库,以及系统层和硬件层。服务端分为业务服务器和ORTC服务器:业务服务器主要管理如认证、监控和调度等;ORTC服务器主要有信令服务器、媒体服务器,以及STUN、TURN、MCU和网关服务器等。所有这些服务器都是基于OPPO混合云架构之上的微服务。

c8b33ed2-13ba-11ee-962d-dac502259ad0.png

接下来通过一个应用场景介绍ORTC交互流程。

如图是一个点对点视频通话场景,业务管理服务器用于资源分配,信令服务器用于链路建立以及SDK协商,媒体转发服务器用于媒体流收发。

ORTC作为一个PaaS平台,不只提供简单的应用,还可以进一步扩展,它是对开发者开放的。此外,作为OPPO三大战略之一的潘塔纳尔系统也是借助PRTC来实现原厂互联通信能力的。

-02-

AI=>ORTC

c8e660dc-13ba-11ee-962d-dac502259ad0.png

接下来我们看AI能够从哪些方面给ORTC带来惊喜的呢?

我们知道,RTC的核心要素包括音频、视频和网络传输。接下来我们从这三个方面分析AI师如何促进ORTC能力跃迁的。

c9081cf4-13ba-11ee-962d-dac502259ad0.png

首先是音频部分。在RTC交互过程中,音频处理的上行流程包括音频采集、音频前处理、压缩编码、RTP封包和弱网对抗。在前处理和弱网对抗部分都可适当引入AI。在云端还包括合流转码和云端增强。在下行部分中,AI也可以发挥很大的作用。

接下来就从音频前处理的几个常用场景介绍下。

c926f246-13ba-11ee-962d-dac502259ad0.png

首先是AI语音降噪。AI降噪基于大量语料练习,应用深度学习技术,实现将人声和噪音分离,有效抑制环境中的各种噪音。在这个过程中,我们所做的主要包括模型训练以及算法执行。 在模型的训练过程中,需要对含噪语音进行前处理、 短时傅里叶变换,经过深度学习网络后,得到增强语音,再将增强语音与干净语音输入到损失函数模块,得到损失值来指导模型更新,直至收敛。在这个过程中,对于降噪效果的指标衡量,取决于训练目标和损失函数。 常用的训练目标包括掩码类和映射类。掩码类描述了干净语音与噪音之间的时频关系,包括基于幅度的理想二值掩码等;映射类通过训练神经网络模型直接学习带噪语音和纯净语音之间的映射关系,包括频谱映射和波形映射。 有了训练目标后,再叠加损失函数,如MSE、SDR、PESQ等,最终使模型得到很好的收敛。

c97a8564-13ba-11ee-962d-dac502259ad0.png

在网络模型方面,CRN是融合了卷积和循环神经网络的一种网络模型。在此基础上,DCCRN融合了复数卷积概念,ORTC正是基于此模型进行语音降噪的。 下一步的演进过程需要考虑分场景进行。因为有些降噪算法的引入会增加功耗和复杂度,我们会综合运用传统WebRTC降噪、DCCRN降噪以及基于视觉辅助的AI降噪(视觉语音降噪是利用视觉信息,如嘴唇运动,把跟目标声音相关的背景人声过滤掉)。

c9cf9b44-13ba-11ee-962d-dac502259ad0.png

回声包括线性回声和非线性回声。 在进行回声消除时,首先进行延迟估计(将参考信号和麦克风信号对齐),然后做一个线性自适应滤波器(去除线性回声),第三步是非线性处理(抑制残留噪声)。 AI回声消除是通过语音分离方式,基于长短记忆模型(LSTM)和卷积神经网络(CNN)进行回声场景的算法建模,直接消除线性回声和非线性回声。 训练策略包括频谱映射、波形映射、掩码和时域。

ca09267a-13ba-11ee-962d-dac502259ad0.png

ORTC视频端到端处理流程如图所示。在流程中,AI算法的应用场景还是很丰富的。

ca336200-13ba-11ee-962d-dac502259ad0.png

基于此,OPPO提供了基于“云-端-芯”的三层架构和“端云协同部署,端芯加速计算”的技术方案,为移动业务提供安全快速的端侧能力。 AIDeploy是云端AI部署平台,为端侧AI能力提供线上部署更新和运行监控能力,通过异常预警和用户行为分析持续演进算法能力,从而增强端侧AI服务,为用户带来更好的体验。 AIUnit是端侧AI能力平台,基于自主创新的双驱引擎架构,可以自由部署各种算法模型,为App提供轻量API可快速集成AI能力。 AIBoost是AI算法加速框架,结合ColosOS系统调度和硬件计算,提供模型加速、异构计算、推理转换等能力,支持TensorFlow、Pytorch等算法框架。

ca6a2f24-13ba-11ee-962d-dac502259ad0.png

在实时视频交互过程中,会遇到视频过暗、过淡、抖动等需要处理的场景,很多AI算法也已支持解决此类问题。在ORTC视频增强架构中,CameraUnit SDK实现层提供了AI算法的能力接入,在视频前处理如抖动、美颜、视频增强等做能力提升。

ca985ea8-13ba-11ee-962d-dac502259ad0.png

在视频前处理中,美颜主要使用双曲线磨皮和高低频磨皮。 双曲线磨皮通过Y通道求高反差,进行RGB通道提亮和压暗处理,最后进行图像融合。此方法在磨皮程度的度量和处理色块上都有一定的缺陷和局限性。 于是,我们针对高低频磨皮进行了一些改进。首先对图像进行滤波,生成中间结果,利用图像的方差图来反映图像的频率分布,将图像划分为不同频段的区域并为其设置不同的权重,根据相应的权重将原图和滤波后的图进行融合叠加。 在此过程中我们也遇到了一些问题,例如中高光压制过多导致图像通透性差,对应的解决方案是细化分频区域,减小对高光的压制。另外,针对图像锯齿和小人脸效果不佳的问题,我们通过降低缩放尺度或不缩放以解决此问题。

cac197dc-13ba-11ee-962d-dac502259ad0.png

接下来介绍在RTC处理过程中的自适应编码部分,AI带来了哪些提升。 RTC系统中最大的成本在于带宽,而带宽和清晰度是相辅相成的。一方面希望节省带宽成本,另一方面希望传输高质量图像,这是不可兼得的。那如何在有限带宽的网络环境中,实现更清晰、更低成本的视频传输呢?我们提出了窄带高清的需求。 在窄带高清的要求下,比较常用的是内容感知编码,即对视频帧进行感知分析,识别出感兴趣区域,预测最佳编码数据,实现基于场景复杂度的智能感知编码。这里的关键在于ROI即感兴趣区域的识别,引入ROI视频编码后,就变得比较容易。 我们在SDK接入层提供ROI封装能力,三方通过接口调用硬件平台提供的底层ROI编码 功能。

caf7345a-13ba-11ee-962d-dac502259ad0.png

图像超分在端侧和云端都有实现机会,可以在低带宽情况下实现更高质量的图像。目前ORTC视频超分的AI应用主要在服务侧,稍后在架构部分会进一步讲解。

cb5f261e-13ba-11ee-962d-dac502259ad0.png

在网络传输部分,AI可以带来哪些提升呢?目前包括几个方面:

WaveNetEQ,即一种改进版的PLC系统,用于语音合成的递归神经网络模型,能更好解决音频丢包问题;

基于神经网络的自适应传输;

基于强化学习的拥塞控制算法;

基于RNN的丢包恢复;

-03-

ORTC=>AI

cba72d38-13ba-11ee-962d-dac502259ad0.png

在端侧无论如何优化,都会有一些AI无法克服的困难,比如计算复杂度过高、训练数据集不足、模型普适性差、无法应对大规模应用等。这些端侧的痛点,可以利用ORTC低时延、高保真的特性来解决。

cbf6a372-13ba-11ee-962d-dac502259ad0.png

基于此,我们提供了ORTC和AI融合的架构,可以有效借助开发框架引入AI算法服务。例如,在对实时性要求较高的场景,可以借助云端虚拟SDK引入流辅助AI做分析处理;如果是对帧率要求高、时延要求不高的场景,可以借助平台分发实现AI算法服务进行流转发。

cc447106-13ba-11ee-962d-dac502259ad0.png

在语音分析和自然语言处理方面,ORTC可以补充AI在实时语音翻译/字幕、实时变声、对话机器人等方面的能力。另外,基于ORTC SDK通道的能力,我们还可以做一些较复杂的场景运用,如远程听诊。用户和医生之间不仅可以实时通话,同时还可以借助同一个通道传输高保真音频。

cca34136-13ba-11ee-962d-dac502259ad0.png

在视频分析及处理方面,ORTC可以在远程活体检测、数字人驱动建模、辅助驾驶、远程心率测量等场景帮助AI落地。

-04-

ORTC与AI融合

cccf189c-13ba-11ee-962d-dac502259ad0.png

接下来介绍AI和ORTC之间融合的一些实践探索。

cd1533cc-13ba-11ee-962d-dac502259ad0.png

在RTC云端AI处理关键流程中,视频和音频基本可以实时处理(端到端500ms内),同时视频超分在云端利用GPU进行计算之后,可以对视频图像做增强,然后回流到ORTC中。

cd4288cc-13ba-11ee-962d-dac502259ad0.png

在ORTC融合AI架构中,ORTC可以让AI算法得到很好的实践落地,如前述提到的借助ORTC可以实现流的分发,或实现AI对图像实时的抽帧和流转发流程处理。同时,视频处理后的智能流可以很好反馈回流到ORTC系统中去。

cda04e80-13ba-11ee-962d-dac502259ad0.png

以背景建模场景为例,AI不仅可以使网络传输质量得到很好的提升,对背景区域进行虚化,还可以保证隐私。此外,我们还可以把通过背景建模算法提取到的背景帧作为长期参考帧,以提升抗弱网的能力。

cdc3c946-13ba-11ee-962d-dac502259ad0.png

基于ORTC和AI的相互作用,我们还做了很多的探索和实践,例如图示的实时音视频多模态分析。

ce54419c-13ba-11ee-962d-dac502259ad0.png

此外,在元宇宙场景也有相关探索,例如多模态驱动虚拟数字人,以及云渲染+ORTC串流。

我的分享就到这里,谢谢!





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SDR
    SDR
    +关注

    关注

    7

    文章

    232

    浏览量

    50158
  • RTC
    RTC
    +关注

    关注

    2

    文章

    484

    浏览量

    65466
  • 傅里叶变换
    +关注

    关注

    5

    文章

    415

    浏览量

    42250
  • MSE
    MSE
    +关注

    关注

    0

    文章

    5

    浏览量

    6484

原文标题:ORTC与AI相互成就之道

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    EMI电磁干扰:EMI电磁干扰的识别与解决之道

    深圳比创达EMC|EMI电磁干扰:EMI电磁干扰的识别与解决之道
    的头像 发表于 04-25 11:17 140次阅读
    EMI电磁干扰:EMI电磁干扰的识别与解决<b class='flag-5'>之道</b>

    格科微再次获评中国IC设计成就奖“十大中国IC设计公司”

    2024年3月29 日,在2024年度中国IC设计成就奖颁奖典礼暨中国IC领袖峰会上,格科微再次获评中国 IC 设计成就奖“十大中国IC设计公司”。
    的头像 发表于 04-01 16:43 351次阅读
    格科微再次获评中国IC设计<b class='flag-5'>成就</b>奖“十大中国IC设计公司”

    国科微GK7205V500系列荣获2024年度中国IC设计“年度最佳AI芯片”

    3月29日,2024中国IC领袖峰会暨中国IC成就奖颁奖典礼在上海举行。作为国内领先的集成电路设计企业,国科微凭借雄厚的研发实力和在AI领域的创新成就,旗下智能视觉芯片GK7205V500系列荣获2024年度中国IC设计
    的头像 发表于 04-01 10:21 230次阅读

    精益生产和数字化是如何相互成就的?

    在当今这个高速发展的数字时代,精益生产和数字化已成为企业追求卓越、提升竞争力的两大引擎。它们如同两股巨大的力量,相互推动、相互成就,共同书写着制造业的新篇章。 一、精益生产:追求卓越的基石 精益生产
    的头像 发表于 01-09 15:22 222次阅读

    探秘笔记本手感测试机:品质之道从触感开始

    探秘笔记本手感测试机:品质之道从触感开始
    的头像 发表于 12-28 09:13 198次阅读
    探秘笔记本手感测试机:品质<b class='flag-5'>之道</b>从触感开始

    辐射骚扰整改思路及方法:参数选择与解决之道

    辐射骚扰整改思路及方法:参数选择与解决之道?相信不少人是有疑问的,今天深圳市比创达电子科技有限公司就跟大家解答一下!
    的头像 发表于 11-07 10:46 843次阅读
    辐射骚扰整改思路及方法:参数选择与解决<b class='flag-5'>之道</b>?

    AI智能呼叫中心

    随着科技的飞速发展,人工智能(AI)已经成为了各行各业的关键技术,其中,AI智能呼叫中心的出现,给传统的呼叫中心带来了巨大的改变与创新,本文将探讨AI智能呼叫中心的优势,包括自动化处理、个性化服务
    发表于 09-20 17:53

    慎思笃行,兴业致远:金融行业的数据之道

    如何在博学之后,真正做到审问、慎思、明辨、笃行,走好中国金融的数据之道
    的头像 发表于 07-31 09:06 640次阅读

    余承东开始蹭比亚迪了,中国公司到底有多可怕?

    余承东和王传福,一个曾把手机做成全球第一,一个把新能源汽车做成了全球第一。当下,王传福把比亚迪做的顺风顺水,去年营收入4240.61亿元,净利166.22亿。而华为的汽车BU还在巨亏。都说高层次人群,都相互成就,中国企业比亚迪和华为已到达了这种境界。
    的头像 发表于 06-30 15:15 793次阅读

    国产生成式AI,不能仅仅看向前方#生成式AI #信息无障碍

    AI
    脑极体
    发布于 :2023年06月15日 19:06:36

    图灵慧眼AI视觉检测 酸奶盒子黑点检测# 视觉检测# #AI

    AI
    jf_06850557
    发布于 :2023年06月15日 16:40:17

    MS4525DO-DS5AI001DP空速传感器测量原理

    MS4525DO-DS5AI001DP空速传感器测量原理,它最早是由英国人罗宾逊发明的。 感应部分由三个或四个锥形或半球形空杯组成。 空心杯壳固定在相互成120°的三尖星形支架或相互成90°的十字形支架上。 杯子的凹面为一个方向
    的头像 发表于 06-02 14:51 431次阅读
    MS4525DO-DS5<b class='flag-5'>AI</b>001DP空速传感器测量原理

    ChartGPT AI 时代,程序员生存之道##chatgpt #AI产业 #人工智能

    人工智能
    阿梨是苹果
    发布于 :2023年06月01日 10:11:31

    #物联网 如何用AI做一条视频#物联网 #电子技术 #人工智能 #AI技术

    AI
    轻生活科技语音模块
    发布于 :2023年05月26日 15:31:52

    最新的AI一键修图火爆全网,祖传PS要失业了# AI修图

    AI
    智哪儿
    发布于 :2023年05月22日 11:57:30