0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ORTC与AI相互成就之道

LiveVideoStack 来源:LiveVideoStack 2023-06-26 09:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

-01-

ORTC简介

c7b837bc-13ba-11ee-962d-dac502259ad0.png

首先简单介绍一下ORTC:它是OPPO实时音视频平台,是OPPO万物互融战略下的重要基础设施,面向终端和业务提供音视频实时通信基础能力。ORTC目前支持视频会议、视频通话、云游戏、云渲染等产品。

c8656a04-13ba-11ee-962d-dac502259ad0.png

ORTC架构分为两部分,端侧和服务侧。端侧包括APP层、SDK层、核心库,以及系统层和硬件层。服务端分为业务服务器和ORTC服务器:业务服务器主要管理如认证、监控和调度等;ORTC服务器主要有信令服务器、媒体服务器,以及STUN、TURN、MCU和网关服务器等。所有这些服务器都是基于OPPO混合云架构之上的微服务。

c8b33ed2-13ba-11ee-962d-dac502259ad0.png

接下来通过一个应用场景介绍ORTC交互流程。

如图是一个点对点视频通话场景,业务管理服务器用于资源分配,信令服务器用于链路建立以及SDK协商,媒体转发服务器用于媒体流收发。

ORTC作为一个PaaS平台,不只提供简单的应用,还可以进一步扩展,它是对开发者开放的。此外,作为OPPO三大战略之一的潘塔纳尔系统也是借助PRTC来实现原厂互联通信能力的。

-02-

AI=>ORTC

c8e660dc-13ba-11ee-962d-dac502259ad0.png

接下来我们看AI能够从哪些方面给ORTC带来惊喜的呢?

我们知道,RTC的核心要素包括音频、视频和网络传输。接下来我们从这三个方面分析AI师如何促进ORTC能力跃迁的。

c9081cf4-13ba-11ee-962d-dac502259ad0.png

首先是音频部分。在RTC交互过程中,音频处理的上行流程包括音频采集、音频前处理、压缩编码、RTP封包和弱网对抗。在前处理和弱网对抗部分都可适当引入AI。在云端还包括合流转码和云端增强。在下行部分中,AI也可以发挥很大的作用。

接下来就从音频前处理的几个常用场景介绍下。

c926f246-13ba-11ee-962d-dac502259ad0.png

首先是AI语音降噪。AI降噪基于大量语料练习,应用深度学习技术,实现将人声和噪音分离,有效抑制环境中的各种噪音。在这个过程中,我们所做的主要包括模型训练以及算法执行。 在模型的训练过程中,需要对含噪语音进行前处理、 短时傅里叶变换,经过深度学习网络后,得到增强语音,再将增强语音与干净语音输入到损失函数模块,得到损失值来指导模型更新,直至收敛。在这个过程中,对于降噪效果的指标衡量,取决于训练目标和损失函数。 常用的训练目标包括掩码类和映射类。掩码类描述了干净语音与噪音之间的时频关系,包括基于幅度的理想二值掩码等;映射类通过训练神经网络模型直接学习带噪语音和纯净语音之间的映射关系,包括频谱映射和波形映射。 有了训练目标后,再叠加损失函数,如MSE、SDR、PESQ等,最终使模型得到很好的收敛。

c97a8564-13ba-11ee-962d-dac502259ad0.png

在网络模型方面,CRN是融合了卷积和循环神经网络的一种网络模型。在此基础上,DCCRN融合了复数卷积概念,ORTC正是基于此模型进行语音降噪的。 下一步的演进过程需要考虑分场景进行。因为有些降噪算法的引入会增加功耗和复杂度,我们会综合运用传统WebRTC降噪、DCCRN降噪以及基于视觉辅助的AI降噪(视觉语音降噪是利用视觉信息,如嘴唇运动,把跟目标声音相关的背景人声过滤掉)。

c9cf9b44-13ba-11ee-962d-dac502259ad0.png

回声包括线性回声和非线性回声。 在进行回声消除时,首先进行延迟估计(将参考信号和麦克风信号对齐),然后做一个线性自适应滤波器(去除线性回声),第三步是非线性处理(抑制残留噪声)。 AI回声消除是通过语音分离方式,基于长短记忆模型(LSTM)和卷积神经网络(CNN)进行回声场景的算法建模,直接消除线性回声和非线性回声。 训练策略包括频谱映射、波形映射、掩码和时域。

ca09267a-13ba-11ee-962d-dac502259ad0.png

ORTC视频端到端处理流程如图所示。在流程中,AI算法的应用场景还是很丰富的。

ca336200-13ba-11ee-962d-dac502259ad0.png

基于此,OPPO提供了基于“云-端-芯”的三层架构和“端云协同部署,端芯加速计算”的技术方案,为移动业务提供安全快速的端侧能力。 AIDeploy是云端AI部署平台,为端侧AI能力提供线上部署更新和运行监控能力,通过异常预警和用户行为分析持续演进算法能力,从而增强端侧AI服务,为用户带来更好的体验。 AIUnit是端侧AI能力平台,基于自主创新的双驱引擎架构,可以自由部署各种算法模型,为App提供轻量API可快速集成AI能力。 AIBoost是AI算法加速框架,结合ColosOS系统调度和硬件计算,提供模型加速、异构计算、推理转换等能力,支持TensorFlow、Pytorch等算法框架。

ca6a2f24-13ba-11ee-962d-dac502259ad0.png

在实时视频交互过程中,会遇到视频过暗、过淡、抖动等需要处理的场景,很多AI算法也已支持解决此类问题。在ORTC视频增强架构中,CameraUnit SDK实现层提供了AI算法的能力接入,在视频前处理如抖动、美颜、视频增强等做能力提升。

ca985ea8-13ba-11ee-962d-dac502259ad0.png

在视频前处理中,美颜主要使用双曲线磨皮和高低频磨皮。 双曲线磨皮通过Y通道求高反差,进行RGB通道提亮和压暗处理,最后进行图像融合。此方法在磨皮程度的度量和处理色块上都有一定的缺陷和局限性。 于是,我们针对高低频磨皮进行了一些改进。首先对图像进行滤波,生成中间结果,利用图像的方差图来反映图像的频率分布,将图像划分为不同频段的区域并为其设置不同的权重,根据相应的权重将原图和滤波后的图进行融合叠加。 在此过程中我们也遇到了一些问题,例如中高光压制过多导致图像通透性差,对应的解决方案是细化分频区域,减小对高光的压制。另外,针对图像锯齿和小人脸效果不佳的问题,我们通过降低缩放尺度或不缩放以解决此问题。

cac197dc-13ba-11ee-962d-dac502259ad0.png

接下来介绍在RTC处理过程中的自适应编码部分,AI带来了哪些提升。 RTC系统中最大的成本在于带宽,而带宽和清晰度是相辅相成的。一方面希望节省带宽成本,另一方面希望传输高质量图像,这是不可兼得的。那如何在有限带宽的网络环境中,实现更清晰、更低成本的视频传输呢?我们提出了窄带高清的需求。 在窄带高清的要求下,比较常用的是内容感知编码,即对视频帧进行感知分析,识别出感兴趣区域,预测最佳编码数据,实现基于场景复杂度的智能感知编码。这里的关键在于ROI即感兴趣区域的识别,引入ROI视频编码后,就变得比较容易。 我们在SDK接入层提供ROI封装能力,三方通过接口调用硬件平台提供的底层ROI编码 功能。

caf7345a-13ba-11ee-962d-dac502259ad0.png

图像超分在端侧和云端都有实现机会,可以在低带宽情况下实现更高质量的图像。目前ORTC视频超分的AI应用主要在服务侧,稍后在架构部分会进一步讲解。

cb5f261e-13ba-11ee-962d-dac502259ad0.png

在网络传输部分,AI可以带来哪些提升呢?目前包括几个方面:

WaveNetEQ,即一种改进版的PLC系统,用于语音合成的递归神经网络模型,能更好解决音频丢包问题;

基于神经网络的自适应传输;

基于强化学习的拥塞控制算法;

基于RNN的丢包恢复;

-03-

ORTC=>AI

cba72d38-13ba-11ee-962d-dac502259ad0.png

在端侧无论如何优化,都会有一些AI无法克服的困难,比如计算复杂度过高、训练数据集不足、模型普适性差、无法应对大规模应用等。这些端侧的痛点,可以利用ORTC低时延、高保真的特性来解决。

cbf6a372-13ba-11ee-962d-dac502259ad0.png

基于此,我们提供了ORTC和AI融合的架构,可以有效借助开发框架引入AI算法服务。例如,在对实时性要求较高的场景,可以借助云端虚拟SDK引入流辅助AI做分析处理;如果是对帧率要求高、时延要求不高的场景,可以借助平台分发实现AI算法服务进行流转发。

cc447106-13ba-11ee-962d-dac502259ad0.png

在语音分析和自然语言处理方面,ORTC可以补充AI在实时语音翻译/字幕、实时变声、对话机器人等方面的能力。另外,基于ORTC SDK通道的能力,我们还可以做一些较复杂的场景运用,如远程听诊。用户和医生之间不仅可以实时通话,同时还可以借助同一个通道传输高保真音频。

cca34136-13ba-11ee-962d-dac502259ad0.png

在视频分析及处理方面,ORTC可以在远程活体检测、数字人驱动建模、辅助驾驶、远程心率测量等场景帮助AI落地。

-04-

ORTC与AI融合

cccf189c-13ba-11ee-962d-dac502259ad0.png

接下来介绍AI和ORTC之间融合的一些实践探索。

cd1533cc-13ba-11ee-962d-dac502259ad0.png

在RTC云端AI处理关键流程中,视频和音频基本可以实时处理(端到端500ms内),同时视频超分在云端利用GPU进行计算之后,可以对视频图像做增强,然后回流到ORTC中。

cd4288cc-13ba-11ee-962d-dac502259ad0.png

在ORTC融合AI架构中,ORTC可以让AI算法得到很好的实践落地,如前述提到的借助ORTC可以实现流的分发,或实现AI对图像实时的抽帧和流转发流程处理。同时,视频处理后的智能流可以很好反馈回流到ORTC系统中去。

cda04e80-13ba-11ee-962d-dac502259ad0.png

以背景建模场景为例,AI不仅可以使网络传输质量得到很好的提升,对背景区域进行虚化,还可以保证隐私。此外,我们还可以把通过背景建模算法提取到的背景帧作为长期参考帧,以提升抗弱网的能力。

cdc3c946-13ba-11ee-962d-dac502259ad0.png

基于ORTC和AI的相互作用,我们还做了很多的探索和实践,例如图示的实时音视频多模态分析。

ce54419c-13ba-11ee-962d-dac502259ad0.png

此外,在元宇宙场景也有相关探索,例如多模态驱动虚拟数字人,以及云渲染+ORTC串流。

我的分享就到这里,谢谢!





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SDR
    SDR
    +关注

    关注

    7

    文章

    243

    浏览量

    52096
  • RTC
    RTC
    +关注

    关注

    2

    文章

    673

    浏览量

    72336
  • 傅里叶变换
    +关注

    关注

    6

    文章

    446

    浏览量

    43846
  • MSE
    MSE
    +关注

    关注

    0

    文章

    7

    浏览量

    6702

原文标题:ORTC与AI相互成就之道

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    [完结15章]Java转 AI高薪领域必备-从0到1打通生产级AI Agent开发

    拒绝原地踏步:Java工程师AI转型的底层技术破局之道 在软件工程范式被大语言模型(LLM)彻底颠覆的今天,传统的“Java CRUD boy”正面临着前所未有的生存危机。当业务逻辑的生成可以被
    发表于 04-30 13:46

    炬芯科技端侧AI音频芯片ATS362X荣获2026中国IC设计成就

    2026年3月31日-4月1日,2026中国IC设计成就奖颁奖典礼在上海召开。凭借创新的端侧AI芯片架构、深厚的音频技术积淀以及丰富的技术商业化落地生态,炬芯科技端侧AI音频芯片ATS362X荣获
    的头像 发表于 04-03 17:42 1287次阅读

    芯原荣膺2026中国IC设计成就奖年度AI ASIC设计领军企业

    设计成就奖评选中,芯原荣膺“年度AI ASIC设计领军企业”。 该荣誉是对芯原在AI ASIC芯片定制设计领域综合实力的认可,彰显了其在行业中的领先地位。芯原执行副总裁、定制芯片平台事业部总经理汪志伟代表公司出席颁奖典礼并领取了
    的头像 发表于 04-03 17:04 1250次阅读

    AI辅助编程设计之道:从Spec到Code工程实践

    大语言模型正在重塑软件开发的日常。从Copilot到各种编程助手,AI生成代码的能力已经渗透到许多开发者的工作流中。但在实际应用中,一个现象值得注意:不少团队在使用AI编程时,陷入了“需求描述-代码
    发表于 03-16 13:33

    AI 遇上 ICY DOCK 硬盘盒:企业 AI 基础设施的存储革新之道

    在生成式AI的浪潮中,数据已成为新时代的"石油",而存储则成为AI算力的"生命线"。当AI大模型的训练需要海量数据吞吐,当推理侧需要本地化的高速存储,传统存储
    的头像 发表于 03-13 14:54 981次阅读
    当 <b class='flag-5'>AI</b> 遇上 ICY DOCK 硬盘盒:企业 <b class='flag-5'>AI</b> 基础设施的存储革新<b class='flag-5'>之道</b>

    使用NORDIC AI的好处

    Nordic 的 Edge AI 主要有以下几个好处(基于官方资料总结): 极低功耗、延长电池寿命 在本地运行 AI,减少无线传输次数,而无线收发是最耗电的部分。设备只需上传“结果/事件”,而不是
    发表于 01-31 23:16

    瑞可达荣获深蓝汽车2025年度质量贡献奖

    近日,瑞可达凭借在深蓝汽车项目中长达九年的稳定交付和可靠质量,荣获“质量贡献奖”。这份荣誉,不仅是对瑞可达产品实力的高度认可,也见证了双方九年来的紧密携手与相互成就。从最初合作到如今的战略互信,瑞可达始终坚守品质初心,以可靠的连接系统解决方案,为深蓝汽车的快速发展提供坚实支撑。
    的头像 发表于 01-26 16:15 991次阅读

    爱芯元智荣获2025全球电子成就奖之年度创新产品奖

    近日(11月25日),在AspenCore主办的“2025全球电子成就奖”颁奖典礼上,爱芯元智凭借其边缘计算AI芯片——“爱芯元曦”系列,成功摘得“年度创新产品奖”。
    的头像 发表于 12-03 10:36 1088次阅读

    炬芯科技荣膺2025全球电子成就奖之年度潜力AI技术公司奖

    11月25日,由全球电子工程领域权威技术媒体AspenCore重磅发起的“2025全球电子成就奖”正式揭晓,炬芯科技凭借前瞻性的技术创新,基于存内计算架构打造三核异构端侧AI芯片,为AI应用注入极致
    的头像 发表于 11-27 18:04 1497次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱动科学一起构成
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    生物化学计算机,它通过离子、分子间的相互作用来进行复杂的并行计算。因而未来可期的前景是AI硬件将走向AI湿件。 根据研究,估算出大脑的功率是20W,在进行智力活动时,其功率会增大到25~50W。在大脑进化
    发表于 09-06 19:12

    AI 芯片浪潮下,职场晋升新契机?

    时可作为个人不断进取、紧跟行业发展步伐的有力佐证,为职业晋升之路奠定坚实基础。 AI 芯片行业蓬勃发展,为从业者提供了广阔的职业发展空间,而职称评审则是对个人专业能力与职业成就的权威认可。深入了解 AI
    发表于 08-19 08:58

    领克品牌累计交付突破150万台

    近日,领克品牌累计交付突破150万台,树立中国汽车高价值发展标杆,这不仅是品牌的里程碑时刻,更是品牌与用户相互成就、共同成长的最佳见证。
    的头像 发表于 07-22 09:56 1053次阅读

    油气行业AI转型的三昧真火

    听真话、做真事、见真章,油气行业的AI修炼之道
    的头像 发表于 06-06 18:32 1445次阅读
    油气行业<b class='flag-5'>AI</b>转型的三昧真火