0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MediaBox,行业音视频数字化再加速

LiveVideoStack 来源:LiveVideoStack 2023-09-05 17:20 次阅读

以一只音视频百宝箱,应对「千行千面」。

CloudImagine

大家好,今天我分享的主题是MediaBox——行业音视频数字化再加速。 根据权威数据表明,65%的行业数字化信息来自视频,基于此,音视频技术对于行业数字化来说是至关重要的。今天我想借此机会向大家介绍一个重量级的客户端产品——MediaBox,它将致力于实现行业音视频数字化再加速。 MediaBox,顾名思义,是一个包罗万象的音视频魔盒。在这里,多种音视频能力的SDK可供任意选择、自由组合、多端适配,一次性满足多种音视频需求。

d2718378-4b93-11ee-a25d-92fbcf53809c.png

接下来我将从MediaBox初识与全景、音视频终端SDK的架构设计和演进、音视频低代码开发的场景建设与实践和生态合作及未来展望四个方面进行分享。

01

MediaBox初识与全景

d2a94d6c-4b93-11ee-a25d-92fbcf53809c.png

从需求侧来看,传统音视频技术已发展多年,在行业化的过程中被广泛应用于互娱行业。同时,也在逐渐向教育、医疗和零售等传统行业渗透,刺激了传统行业需求的旺盛增长。 从研发侧来看,音视频的复杂度使得行业客户也面临许多挑战,例如开发门槛高、接入复杂度高、性能挑战大等等。 基于这些行业趋势和挑战,企业的音视频诉求可总结为:高易用、高性能、场景化、多端化的多SDK组合及方案。阿里云视频云“MediaBox音视频终端一体化套件”就给出了这些问题的最优解,通过极致的自我进化,加速行业音视频数字化落地。 这里分享一个大家比较熟悉的互娱场景:直播PK。在开播端需要RTC技术支持直播推流和旁路直播;在PK时需要借助IM信令完成交互、RTC完成音视频流传输以及进行混流布局。这样的场景就需要多个SDK和云产品组合完成,那么相比音视频SDK,我们更需要场景化的解决方案。

d2f5000e-4b93-11ee-a25d-92fbcf53809c.png

通过MediaBox全景图,可以看到,MediaBox由音视频终端SDK、音视频低代码AUI Kits两大部分组成,并基于行业生态合作构建音视频场景方案。 MediaBox音视频终端SDK全面覆盖实时音视频、直播、超低延迟直播、播放器、短视频、美颜特效等,通过自由组合出包,形成一系列不同能力的SDK,为客户提供灵活、易用、高效的接入体验。 MediaBox AUI Kits通过对MediaBox SDKs单点能力做场景化的封装,方便客户将某个视频场景化的能力快速集成到自己的应用中。客户不需要理解音视频SDK中API的具体用法,只需关心自己的业务实现,即可实现场景化的音视频能力,从而大大加快业务开发进程。

d3051f84-4b93-11ee-a25d-92fbcf53809c.png

MediaBox的优势可以总结为“一体、三高、多场景”。 首先是一体化:主要是SDK一体化和云端一体化。基于SDK一体化的底座,既可以方便地进行SDK开发,也可以进行SDK组合,满足不同的业务需求;云端一体化,比如特效引擎实现端云体验一体化,智能缓存、调度优化等实现端云一体化。 三高,指的是高易用、高性能、高智能。基于一体化SDK,我们可以实现SDK的灵活组合,并且结合AUI方案实现低代码接入以保证易用性;另外,SDK的稳定和高性能是重中之重;同时,SDK的智能化可以很好地服务各种场景需求。 最后是场景化,场景化方案要解决易用和好用的问题。举个简单的例子,长视频和短视频场景,在起播buffer的设置、缓冲区大小、本地缓存的设置上是有很大差异的,而客户需要的是可以依据具体需求,开箱即用的场景化方案。

02

MediaBox音视频终端SDK的

架构设计和演进

d30cf18c-4b93-11ee-a25d-92fbcf53809c.png

接下来介绍MediaBox音视频终端SDK的架构设计。 在此之前,给大家分享两则小故事。大家知道国产大飞机C919上有多少个零件吗?据相关报道,C919上一共有250万个零件,如此多的零件需要经过完整的系统工程组装起来,并且其中的每个零件都非常重要。 如果我们把MediaBox比作一架飞机的话,那么其中的各个子模块就相当于零件,如何进行有序组装、并完整实现整体功能就成为了一个巨大的挑战。 另外一个分享是关于汽车制造平台。我们知道,不同车型可以在同一个制造平台上生产,共用整车设计,尤其是底盘设计和车辆结构。同样的,MediaBox基于一体化的底座,可以快速迭代和开发SDK产品。 上图是MediaBox一体化SDK的总体架构。它是一个分层的架构,SDK的Crash捕获和License认证都是作为通用能力服务于整个SDK,在SDK之外还有很多研发支撑工具,来保障SDK研发的效率和稳定性。

d31c31e2-4b93-11ee-a25d-92fbcf53809c.png

在SDK的发展初期,各个业务为了满足需求,会各自进行SDK的迭代。随着客户业务的发展,会需要使用多个SDK来完成功能需求,如果强行把这些SDK融合在一起,在包大小方面也不是最优的,而且可能会产生包冲突。 于是我们针对几个主要原子SDK的功能模块做了分析。如图所示,各个SDK之间有很多可以共用的模块,通过SDK模块,可以更好地进行模块复用,同时实现包大小的降低,另外也可以实现更多的性能优化和兼容性提升。

d3697092-4b93-11ee-a25d-92fbcf53809c.png

这些组件抽离后,如何将它们组合到一起呢?可以通过pipeline机制来串联从采集到渲染的整个流程。而音视频pipeline的构造、运行、销毁等全生命周期管理,则需要由微内核来实现,它具备高效、灵活的特点,同时因为引入了插件管理,可以实现插件的插拔,提升SDK的扩展能力。

d387acc4-4b93-11ee-a25d-92fbcf53809c.png

接下来通过一个示例展示插件设计。 某位客户希望引入智能降噪的功能模块,一般情况下智能降噪模块是基于深度学习网络实现的,所以其SDK包相对很大。如果我们直接把该模块引入SDK,会导致整个SDK的size过大。 通过前文介绍,pipeline机制可以很好地串联内部组件,那么对于外部组件是否有好的解决之法?我们在微内核中通过插件占位实现了插件的热插拔,真正实现一套插件代码、一次打包,同时满足两种客户的诉求。

d3be815e-4b93-11ee-a25d-92fbcf53809c.png

前面介绍了一些架构设计的思考,接下来就涉及到一些实际落地的困难和挑战。 第一个问题,是重写SDK,还是基于现有的SDK进行演进?在业务需求的推动下,只能选择后者,但这相当于开着飞机换引擎,对于整体稳定性的考验非常之大。 第二个问题,对于一台零件众多的庞大机器,如何让它顺畅地运行起来?多团队如何协作?版本如何管理? 一体化工程涉及到多个组件,各个组件的版本管理、依赖关系也相当复杂,组件也很难独立被引用。因此我们设计了一个灵活组件管理工具:ACPM(Aliyun C++ Package Manager)。它由两个主要的模块组成: 1、依赖模块:负责根据描述分析依赖关系、下载对应组件、生成cmake工程需要的编译文件; 2、发布模块:负责托管组件静态库(在MTL上),并记录发布时的具体信息,以供依赖时分析。 通过这样的方式,我们可以更好地管理各个组件。举一个实际应用的例子,短视频、直播、RTC都使用到了视频采集模块。如果针对此模块做融合,直接重写一份模块进行共用,在实际运行过程中可能会遇到一些挑战。 我们采用的方式是ACPM化,在一个相对业务量较小的业务(如短视频)内,将其SDK中的视频采集模块ACPM化,另外两个业务仍使用原有的模块。在前者的ACPM化模块逐渐稳定后,再将后两者的模块进行ACPM化,就可达到整体组件使用和工程效率上的融合。

d3d06680-4b93-11ee-a25d-92fbcf53809c.png

ACPM化也可以应用在公共组件、音视频算法等当中。在跨平台上,我们不仅支持了Android/iOS/Win/Mac多端,还支持了Web端,可以输出成Web Assembly代码,这样一些Native客户端的能力可以快速无缝转到Web平台,实现多端体验的一致性。 比如美颜特效SDK,可以通过ACPM编译成Web Assembly代码来供Web平台使用,由于底层代码是同一套,在体验上也最大程度地保证了一致性。

d40c59e2-4b93-11ee-a25d-92fbcf53809c.png

接下来以一个高性能算法特效执行引擎在Web端的实践为例,介绍如何用一体化的框架落地。 如图中的特效引擎,有其pipeline以及数据输入组件和图像处理组件,它可以打包成Android/iOS/Win/Mac以及服务端的版本,在Web端通过WASM的方式支撑相关业务。 Web上会有性能差和功能受限的问题,我们通过Profile工具生成火焰图,分析耗时函数,并将其进行SIMD替换。另外,通过在Web上开启多线程,可以提升整体运行效率。

d431617e-4b93-11ee-a25d-92fbcf53809c.png

云端一体可以实现更极致的优化,是竞争力的体现。 我们实现了一张网一个SDK,并覆盖常见的音视频相关场景。一体化SDK和一体化网络MediaUni的配合,可以实现端云一体化的体验,通过对接客户端SDK,即可便捷地使用云上的服务。 比如端云协同,可以实现智能调度,通过云端联动,智能控制播放缓存大小,以此降低成本。与媒体服务协同,可以实现智能按需转码,当发现某个热门视频时,可以智能启动转码,提升播放体验的同时,也节约了客户的成本。

d457b72a-4b93-11ee-a25d-92fbcf53809c.png

通过前面的方案,可以说飞机已经造出来了,但还需要保障其稳定性。 首先是一体化对客,所有SDK共用一份License,进行统一授权认证、统一入口和引导; 其次是高可用稳定性体系,通过Crash的收集、问题的智能归因,可以快速识别出问题的影响范围; 然后是高可用数据体系,基于数据指标做埋点优化,针对异常指标进行监控; 最后是建设完善的自动化测试体系,来完整保障SDK的质量和稳定性。

d47cb8ae-4b93-11ee-a25d-92fbcf53809c.png

MediaBox在场景化实践中,同样基于端智能技术不断创新突破。 例如,在端侧超分上,需要针对算法进行调优,并考虑端侧算力的兼容性;另外,智能预加载会利用智能算法,基于当前网络状况、用户滑动行为、历史播放行为等信息,动态控制预加载缓存。 在远程教学一对多场景中,学生专注度下降导致教学效果差是远程教学一直以来的痛点,而场景智能为业务赋能带来了更多可能性。音视频终端套件,不止是单纯的开发工具,更是行业的创新型端口,以最轻量的方式,赋予场景全新的数智化能力。

03

MediaBox音视频低代码开发的

场景建设与实践

d4e8b9a0-4b93-11ee-a25d-92fbcf53809c.png

我们接触到的很多客户都不是专业做音视频开发的,因此他们都有一个共同的诉求,即希望能提供一揽子解决方案,而自己只需要专注业务开发即可。 在这里,有几个值得探讨的问题:到底要实现什么样的组件,组件要实现到什么样的粒度,组件要不要开放? 基于这个逻辑,我们开发了很多音视频的低代码基础组件,这些基础组件又可以组合成场景化组件。

d4f94234-4b93-11ee-a25d-92fbcf53809c.png

AUI Kits的组件设计遵循统一规范、多端统一、简单易用这三个原则,实现了多端一致的UI风格。当然,我们也提供了一些易用的工具,方便客户使用脚本实现一键引入,这样可以极大提升客户的集成效率。

d530dc76-4b93-11ee-a25d-92fbcf53809c.png

AUI Kits方案不只有UI控件,也包含与服务端紧密配合的场景化组件,其灵活的架构设计可以让客户方便地进行组件组装,另外核心组件的代码也是开源的。 以接入的某电商直播客户为例,基于场景化的解决方案,客户快速接入音视频能力并跑通业务,同时根据需求自定义开发,定制化修改了其UI。

d54491bc-4b93-11ee-a25d-92fbcf53809c.png

以下将以图中的例子说明,场景化方案是如何来设计的。 场景化方案一般由App、AUI Kits以及App Server配合云服务来完成。为了方便客户一站式集成,App Server当前已经对接了常用的直播审核、录制等阿里云PaaS层功能,客户可以基于源码进行二次开发部署,或者直接使用容器化的方式完成服务部署。客户端的组件会与服务端进行交互,完成场景化的业务功能。

d5809356-4b93-11ee-a25d-92fbcf53809c.png

面向娱乐直播、电商直播、企业直播,我们开发了互动直播AUI Kit场景解决方案,将常见的功能抽成组件实现。 在集团内部客户的某App电商直播场景,通过使用AUI Kit的直播播放、弹幕和橱窗等组件,实现了业务的快速落地。此外,某新能源汽车公司快速集成了AUI Kit方案,完成新车发布会的企业直播。

d598fefa-4b93-11ee-a25d-92fbcf53809c.png

面向公开课、大班课、企业内训等场景,我们开发了互动课堂AUI Kit场景化方案,并在此场景下,完善了互动白板、智能专注度监测等功能。 针对远程监考场景,音视频技术可以很好地赋能教育行业。 中国每年有很多艺术考试,在传统的方式中,艺术生都需要去现场考试。而远程监考场景具有很多难点,首先传统的RTC会议方式是所有考生都在一个会议里,某位考生和老师之间要实现单独通话,且其他考生听不到的需求是难以满足的;除此之外,艺考模式是大量学生同时在线,高并发的流量对于RTC系统也是非常大的挑战。 针对痛点,远程监考AUI Kit方案凭借MediaUni网络,实现一对一通信,并支持万人场景下的高并发推流。 基于低代码方案,企业可以快速完成方案集成,大大降低开发门槛。另外,远程监考方案覆盖了Android/iOS原生应用,微信/钉钉小程序以及Web等多端,保障了考试场景下的“高易用”。 同时,基于全球3200+节点的底层网络,远程监考AUI Kit方案能承载10万+考生同时在线,实现监考端视频延时1秒内、1对1通话延时300ms内,全方位满足高可靠、高并发、低延时、高清晰度的“极致好用”。

04

MediaBox生态合作及未来展望

d5f9fe4e-4b93-11ee-a25d-92fbcf53809c.png

MediaBox的场景化解决方案,可以降低开发门槛、提升集成效率,因此我们将不断开发出更多场景化方案,为行业音视频数字化助力。

此外,云端一体可以实现更极致的优化和更好的体验,这里面可挖掘的空间巨大,我们还将结合场景深耕技术,让端云结合发挥更大价值。

在端智能方面,我们已经实现了智能的预加载,能根据当前的网络情况、当前用户的行为等信息进行模型计算,给出决策。在行业音视频数字化过程中,场景方案中还会对端侧智能提出更多需求。端云结合的智能化、大模型加持下的智能化,都是非常有想象空间的方向。

最后,我们在近期启动了MediaBox生态合作伙伴计划,招募战略伙伴以及重点伙伴,并在销售、营销、技术、赋能等方面给予支持,为伙伴提供更广阔的发展平台。期待与合作伙伴一起,强强联合,为行业客户提供简单、易用、高质量的视频云服务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音视频
    +关注

    关注

    4

    文章

    414

    浏览量

    29579
  • 数字化
    +关注

    关注

    8

    文章

    7713

    浏览量

    60888
  • SDK
    SDK
    +关注

    关注

    3

    文章

    966

    浏览量

    44712

原文标题:MediaBox,行业音视频数字化再加速

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    音视频SoC与AI技术融合,带来更智能的音视频处理解决方案

    电子发烧友网报道(文/李弯弯)音视频SoC,即音视频系统级芯片或片上系统,是一种高度集成化的芯片,它将电路板上的多块芯片以及嵌入式软件全部集成到一块芯片中。音视频SoC芯片广泛应用于各种嵌入式系统
    的头像 发表于 04-26 01:20 1560次阅读

    【RTC程序设计:实时音视频权威指南】音频采集与预处理

    音视频通信对音频采集的实时性和性能要求很高。为了降低延迟并提高吞吐量,可能需要采用一些优化技术,如硬件加速、多线程处理等。 最后,音频采集还需要考虑与后续处理步骤的衔接问题。例如,采集到的音频数
    发表于 04-25 10:41

    音视频解码生成:打造极致观影体验的关键技术

    在现代多媒体时代,音视频解码生成技术已成为提供极致观影体验的核心要素。它不仅能够确保音视频数据的高效传输,还能保证播放的流畅性和画质清晰度,为用户带来身临其境的观影享受。 1. 解码生成的重要性
    的头像 发表于 02-25 14:43 153次阅读

    音视频解码生成在多媒体制作中的应用

    音视频解码生成是多媒体制作中不可或缺的一部分,它扮演着将编码的音视频数据转化为可播放、可编辑的内容的关键角色。在多媒体制作的全过程中,音视频解码生成技术都有广泛的应用。 1. 视频编辑
    的头像 发表于 02-21 14:39 110次阅读

    音视频

    音视频技术都喜欢深究内部最核心的原理和机制,尤其是ffmpeg这个编解码库,可以说是音视频领域事实上的标准。语音智能算法,语言语义分析和理解,流媒体服务器等高端技术也都基于它而构建。希望有幸获得本书,深度学习ffmpeg核心技术,和作者一起在技术海洋中探索和进步。
    发表于 11-23 08:51

    ESP RTC音视频传输延迟测试

    音视频
    Kevincoooool
    发布于 :2023年11月11日 10:54:02

    HarmonyOS音视频开发概述

    实现处理音频数据的功能前,建议开发者先了解声学相关的知识,帮助理解操作系统提供的API是如何控制音频系统,从而开发出更易用、体验更好的音视频类应用。建议了解的相关概念包括但不限于: ● 音频量化的过程
    发表于 10-17 16:39

    打造沉浸式专业音视频体验

    AMD ProAV技术与方案分享专题研讨会 我们的生活被专业的音视频设备所包围。从零售广告中的数字标牌,到现场活动中的麦克风和大屏幕显示;从体育赛事的现场直播到行业的实时监控....。需要在不牺牲
    的头像 发表于 09-06 09:10 434次阅读
    打造沉浸式专业<b class='flag-5'>音视频</b>体验

    YXC扬兴科技推出稳定音视频数据传输YSX321SL助力音视频混合矩阵 编码器 延长器

    音视频混合矩阵、编码器和延长器行业对于稳定时钟信号的需求越来越高。YSX321SL是一款负载12PF的24.576MHz石英谐振器,常温频差仅为±10PPM,确保了音视频数据传输的稳定性和准确性。它可为系统提供稳定的参考频率,使
    的头像 发表于 08-21 14:58 882次阅读
    YXC扬兴科技推出稳定<b class='flag-5'>音视频数</b>据传输YSX321SL助力<b class='flag-5'>音视频</b>混合矩阵 编码器 延长器

    如何为SCART音视频接口提供最好的ESD静电保护?

    在国内,SCART接口主要应用于测试,比如机顶盒测试、DVD测试等会用到SCART接口的图文功能。都知道,音视频数据传输过程中,极其容易受到ESD静电放电的干扰和威胁。为此,针对SCART音视频接口
    的头像 发表于 08-16 17:26 398次阅读
    如何为SCART<b class='flag-5'>音视频</b>接口提供最好的ESD静电保护?

    CV-CUDA 助力腾讯云音视频 PaaS 平台实现视频增强 AI 全流程 GPU 加速

    全流程置于 GPU 上进行加速, 前后处理部分效率提升 16% - 38%。 客户简介 腾讯云音视频 PaaS 平台(以下简称腾讯视频云)专注技术产品,构建了行业中极速高清智能转码、
    的头像 发表于 07-28 17:05 466次阅读
    CV-CUDA 助力腾讯云<b class='flag-5'>音视频</b> PaaS 平台实现<b class='flag-5'>视频</b>增强 AI 全流程 GPU <b class='flag-5'>加速</b>

    音视频矩阵是什么意思 音视频矩阵的主要作用

    音视频矩阵(Audio-Video Matrix)是一种设备或系统,用于管理和控制音频和视频信号的传输和分配。它允许用户根据需求选择和路由不同的音频和视频源,并将它们传输到所需的输出设备,如扬声器、显示器、投影仪等。
    发表于 07-20 15:16 2116次阅读

    音视频开发:实时传输与处理音视频流的技术与应用

    音视频
    YS YYDS
    发布于 :2023年06月27日 18:20:58

    基于WebAssembly构建Web端音视频通话引擎

    为我们从实践中来介绍WebAssembly、WebCodecs、WebTransport等技术在音视频行业的价值以及优势。 大家好,我叫田建华。今天分享的主题是基于WebAssembly构建Web
    的头像 发表于 06-26 15:56 486次阅读
    基于WebAssembly构建Web端<b class='flag-5'>音视频</b>通话引擎

    音视频集成是什么 音视频视频有什么区别

    音视频集成是将音频和视频设备、系统和技术进行整合,以实现全面的音视频功能和体验的过程。
    发表于 06-19 17:14 1796次阅读