0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述音视频算法在淘宝中的应用

LiveVideoStack 来源:LiveVideoStack 作者:王立波 2021-05-24 15:44 次阅读

近年来,内容业务在行业蓬勃发展。淘宝也在积极进行内容化转型,本次LiveVideoStackCon 2021 上海站大会我们邀请到了阿里巴巴淘系技术高级算法专家——王立波(庄恕),回顾淘宝从图文到短视频直播的发展历程,介绍音视频算法在其中的应用和未来的投入方向包括编解码、视频处理、音频通讯与互动。

很高兴与大家进行交流与分享,首先介绍一下自己,我是来自淘系技术部的王立波,花名庄恕,今天分享的主题是音视频算法在淘宝中的应用。刚接到这个任务时,觉得题目特别大,可以讲的东西特别多,经过考虑我还是决定集中讲3个观点,可以为大家介绍得更详细。

这三个观点分别是:视频压缩有效降低成本(这个观点在业界应该已经被大家所接受)、视频处理提升画质体验(随着阿里云的窄带高清的推广,也逐渐被大家接受)、音频技术是新的生产力(这是淘宝过去1-2年发力探索的方向,希望能够为行业带来新的思考)。

01

业务介绍

首先我简短介绍一下淘宝的内容业务。随着通信技术的发展,互联网内容生态从2G时代的文字,过渡到3G时代的图片,再到4G时代的直播和短视频;对于淘宝来讲,同样也面临“内容化”的全面升级。

淘宝从PC走向移动,从图文走向直播短视频,从传统电商走向内容电商再到发现电商、兴趣电商。在过去的2020年,淘宝直播的GMV突破4000亿,去年双十一一天之内有超过7亿人次观看淘宝直播;2020年底随着点淘,逛逛的推出,短视频成为内容业务发展的新引擎;在这个飞速发展过程中面临巨大的成本压力。

02

视频压缩有效降低成本

2.1 从图片压缩说起

第一个观点,视频压缩有效降低成本。

说起编解码,可能不得不先提图片压缩了,这是一张小小的商品详情图,在直播短视频兴起之前,图片是大家获取信息主要手段,随着用户增长,成本压力越来越大,过去几年中,淘宝图片日均播放量超过千亿次,如果通过降低质量来降低成本会牺牲大家的体验,所以我们希望依靠技术升级来提高压缩效率。

2.1.1 图片压缩标准的演进

885942ca-bc62-11eb-bf61-12bb97331649.png

大家应该很熟悉图片压缩。图片压缩实际上是一个去除空间冗余的过程,从标准发展上来看,主要经历了JPEG,基于VP8内核的WebP,以及HEVC MSP三代。

这里我对各种格式做了一个简单总结,JPEG是目前使用最广泛的图片压缩标准,从1992年公布至今已经接近三十年,它非常简单高效。10年前左右,Google基于VP8内核发布了WebP格式。WebP在块划分,预测,变化,量化,熵编码方面比JPEG更优,且增加了Deblock功能;HEVC则比WebP更进一步,通过多个工具的升级来提升压缩效率,另一方面,由于Tile划分及Wpp技术的引入,HEVC给Codec工程实现提供很多并行化的手段,这对现代多核CPU来说比较友好。

为了比较三种格式在不同场景数据集下的压缩效率,我们设计图中实验。得出的结论是WebP比JPEG大约提升29%的压缩性能,HEVC对比JPEG大约提升接近50%压缩效率。

2.1.2 淘宝自研APG格式

889f3bea-bc62-11eb-bf61-12bb97331649.png

APG是淘宝自研的图片格式,有三个特点。第一,有非常高的压缩效率,对比JPEG节省50%码率,非常接近HEVC;第二,高效率的移动端解码器,对比Webp减少20%解码时间;第三,支持Alpha通道和动图,动图被广泛使用的是GIF格式,而GIF没有考虑到帧与帧之间的相关性,压缩效率不高,而APG对比GIF节省10倍体积;

除此之外,我们对整个系统的架构方面也进行了大量工作,比如高并发实时响应、CDN的下发策略、存储和计算分离,多内容灾等策略,最终实现了淘宝千亿级的实时图片处理系统,在大大节省业务成本的同时也保障了画质体验。

2.1.3 内容业务进化为视频为主

892462b6-bc62-11eb-bf61-12bb97331649.png

随着内容业务的进化,视频和直播占据了主要流量。一方面信息表达从空间维度拓展到时间维度,另一方面,分辨率也提升到720P,1080P甚至4K,消费时长也成倍增长,(刚才陈老师有数据,每个人花费在视频的平均时间可能有好几十分钟)。我们也知道,每一代视频压缩标准相比上一代有50%的码率节省,从MPEG4到H.264/AVC到H.265/HEVC,再到去年发布的的H.266/VVC,很自然我们会想到通过升级编码标准来节省视频成本。

2.1.4 HEVC在视频业务落地挑战

89b220f6-bc62-11eb-bf61-12bb97331649.png

首先我们探讨一下HEVC在视频业务落地的挑战。HEVC标准在2013年公布已有8年时间,但直到最近几年才在业务上大规模落地,这里主要有以HM下几个原因:

首先是编码速度,H265的官方模型HM,在普通PC上编码720P视频时只能达到0.1fps,想象一下,压缩一段十分钟的视频需要花费一天甚至几天的时间。业界最好的开源编码器X265,在慢速档也只有6.8fps,距离30fps实时编码的需求有相当大的差距;

其次是编码质量,由于复杂度的原因,X265仅比X264节省18%的码率,远远达不到HEVC相比AVC理论上的上限值(HEVC标准在设计时以50%的码率节省为目标);

第三是码率控制,业界有许多场景的码率控制方法,比如ABR、CBR、CRF,但现在实时音视频的业务场景非常复杂,无法直接使用这样的码率控制方法;

第四是解码的兼容性和性能,也是大家普遍关心的问题。用户观看环境多种多样,有AndroidIOS、Web的H5观看,H265在H5上的支持不太好,限制了它的发展,硬解设备兼容性也不完善,所以在解码兼容性方面也面临着很大的挑战。

2.1.5 S265编码内核优化

89eade00-bc62-11eb-bf61-12bb97331649.png

S265编码器是2017开始研发的,花费三年多时间使之达到较好的状态。我们主要在编码工具、快速算法、工程优化、码控方法、框架优化方面做了大量的优化工作从而提升压缩效率和编码速度。

8a1d0d94-bc62-11eb-bf61-12bb97331649.png

下面为大家详细介绍一下速度优化的相关技术。

1、Cu深度预测算法,HEVC的块划分从64划分到8*8,深度有4层,如何预测出CTU的划分深度是具有挑战性的事情。HM为了确保编码性能会对每一层都计算其RDcost,我们这里结合纹理复杂度、时空域相邻块及前处理运动信息,做到比较准确的Cu深度预测。进一步深度预测方面有许多研究,比如一些机器学习深度学习的方法能够精准预测块的划分层级。

2、自适应的EarlySkip算法和RecursionSkip算法。这两个算法比较类似,EarlySkip的目的是在本层跳过其它模式的计算,而RecursionSkip目的是跳过当前层不再Split。X265也有类似的技术,我们比X265更进一步,做RS时会同时考虑skip和merge模式子块的satd,做ES时,会同时考虑最佳模式的cost大小避免残差过大,我们的结果做到在相同速度条件下对比X265相当程度的节省码率。

3、All Zero Block的检测。如果一个块经过量化后是全零块,就没有必要进行RDO及编码了,但怎样预测一个块是All Zero Block。我们发现一种方法可能适合于一种大小的块,在8*8中比较准确,但放在32*32中不可用,所以要根据块大小及内部纹理强度,更加精确地预测出是否是All Zero Block。

4、Fast Intra Prediction。这个技术有很多人研究,H.265总共有35种预测方式,如何快速找到预测角度,有许多相关论文。我们使用Bayes估计模型,在横向及纵向找到准确方向,再去做细分角度预测,提高角度预测的速度。

5、分像素的搜索。传统的分像素的搜索在整像素最佳点上下左右找4或8个点,相对来说计算量比较大,根据整像素结果通过误差平面估计模型推导出分像素点的位置,从而节省分像素的计算个数。

6、多参考帧的选择。为了提高压缩效率,现在的编码器会选择更多参考帧,比如在一个方向选择3到4个参考帧,我们会根据参考帧的质量,距离来做加权,选择适合的参考帧。在拿到一个比较好的结果后如何提前跳出其它参考帧的遍历?多参考帧是提升压缩质量的一个很好选择,但需要避免计算复杂升高。

7、Distortion的快速估计。在RDO过程中要对误差进行仔细估计,如果用传统下的SATD做的话,效率不高,但如果做完整的RDO计算非常耗时,所以我们有残差的预估模型,从量化后的系数中用模型推导出Distortion的结果避免再做反量化,反变化。还有像Bits估计,RDCost的另一个分量是Bits代价,用一次完整的熵编码会非常耗时,如果用一个分段线性模型能够估算出来Bits来,我们就可以快速做出RDO的计算。

其它的比如Deblock,SAO优化偏一些工程方面手段。

8a6be0f4-bc62-11eb-bf61-12bb97331649.png

除了快速算法之外,我还对压缩性能做了一些总结,速度不变的前提下,相比于X265,我们有》30%的性能增益。我们的编码器在以下几个方面有性能收益:

1、第一个码率控制。码率控制的目标是把码率分配到更有价值的地方。它分帧级别码控和块级别码控。在帧级别码控中,我们对I帧码控和P帧码控做了精确的预分析,在块级别码控中,我们设计了增强型的Cu-tree算法。

2、分层B帧以及参考结构的优化。分层B帧在实现方面不难,对压缩效率方面有大的帮助。前面介绍了GOP结构的优化,我们会对参考帧的选择会做权衡。

3、大家知道在静止场景下,分层越多压缩效率越高,但在运动场景就不那么有效,所以我们实现了自适应的GOP Size,并自研了Scenecut算法。能够适应不同运动强度、场景切换的需求包括淡入淡出的需求。

4.此外,在Bi-Search,GPB,LTR这几个工具,在开源软件X265是没有的,但对提高预测效率很有帮助;MCTF工具对编码噪声的去除非常有帮助,我们将这几个技术加入到S265之后获得了5%以上的BD-rate收益。

5、2-pass是在求解一个全局最优的Qscale,它在离线转码场景中被用到,允许对视频做更多分析,但在求解过程中,失真度量是MSE,我们对度量函数进行了重新推导,获得5%压缩性能;

6、Dynamic CRF和Pboffset,常规做法是是固定帧级P,B帧的Offset,我们会根据帧的复杂度来调节帧级QP值;

7、AQ和RDO的代价计算通常基于MSE,但如果是针对SSIM指标的话,可以推导SSIM的模型,RD也一样。

8、针对会议场景,我们还实现了IBC工具,对PPT投屏有帮助。并专门设计了对屏幕内容优化的搜索算法,传统的快速算法如菱形搜索、六边形搜索在SCC场景下效率很低,很难找到最优解,但如果用自研的算法搜索就有较好的效率提升。

8aa581ec-bc62-11eb-bf61-12bb97331649.png

上述是S265技术的介绍,记得在2016年的时候,金山KS265第一次参加MSU比赛获得了非常好的成绩,后来国内有不少同行参赛也获得了不错的名次。阿里巴巴S265从2017年开始投入研究到2020年首次参加MSU比赛, 我们在比赛中获得了3项第一:1080P 30FPS PNSR指标第一、1080P 1FPS PNSR指标第一、1080P 30FPS主观质量第一。

2.2 场景自适应编码

8aeac43c-bc62-11eb-bf61-12bb97331649.png

除了核心编码器之外,在编码器应用方面,我们还自研了一套场景自适应编码方法,分为三个步骤:

1、视频分析:利用机器学习方法做视频切分,并得到高层语义分类,比如动画,体育,秀场,商品介绍等;

2、另一个维度看利用信号分析手段检测出视频的底层特征,比如运动强度,纹理特征,噪声强度,亮度特征等,根据高低维度信息决定编码参数。

3、自适应决策引擎(ADE):根据语义特征和信号特征以及网络状况,决策出最佳编码参数组合。这个决策过程被建模为一个带约束优化模型;

2.3 S265解码提升覆盖率

8b4139f2-bc62-11eb-bf61-12bb97331649.png

一直以来,H265的解码兼容性是大家关心的话题,假如生产端编码出265码流,但播放端不能支持265解码,需要在服务端转码成264格式,这不仅不能减少CDN带宽,反而会增加转码成本。在解码这一侧我们做了很多工作:

1、硬解码适配。对市面上基本所有机型(》1000款)都进行了适配;

2、自研高性能Native H265解码器,在小米5 720P的设备上做测试得到240帧左右的速度,通过很低的功耗实现实时解码。

3、H5的解码。H.265在H5中没有支持,我们基于WebAssembly技术来支持H5的播放。目前可以做到在i7电脑上1080P 30fps的实时解码,CPU消耗在30%以内;

2.4 淘宝编码器落地历程

8b876800-bc62-11eb-bf61-12bb97331649.png

基于以上的编解码内核和应用方面的探索,我来介绍一下淘宝编码器的落地历程。2017年开始投入S265的研究,经过一年多时间,开始在直播业务的落地;2019年的Q1第一版上线后结果不算太好,大约节省30%码率;2020年Q1第二版上线后节省40%码率;今年的Q1第三版结合窄带高清技术实现了50%码率节省。短视频方面,我们尝试将S265应用到淘宝短视频转码,2019年Q3第一版上线,2020年上线第二版。

8bb7621c-bc62-11eb-bf61-12bb97331649.png

基于在S265核心编码器上的积累,我们从2020年Q2开始了S266编解码器的研发工作,并率先在行业内公布了可商用的S266解码器。

解码器方面对比VTM实现单核3.5倍提速,多核16倍提速;在高端的手机IPhone12、P40)实现4K 30FPS解码,低端手机720P双核实现30FPS解码。720P内存消耗《35m《 span=“”》和Binary《1m《 span=“”》,对大型APP来说非常关键,包过大时安装下载会受阻。

我们内部正在做VVC编码器,目标是1FPS Slow档对比X265 Veryslow节省50%码率;30FPS Fast档对比X265 Medium节省40%码率。大家知道VVC比HEVC会更慢,一段1分钟的4k视频用HEVC的HM压缩需要几天,而如果用VVC的VTM则可能需要一个月,时间消耗会非常长。目前我们Slow档已经做到比VTM提升100倍速度但是压缩效率接近。

8c021456-bc62-11eb-bf61-12bb97331649.png

总结一下,淘宝的S265智能编码方案目标是让视频更清晰,覆盖所有业务场景,包括图片压缩、会议SCC、直播、云转码甚至云游戏。

业务策略上包括场景分类自适应、智能码控、针对不同场景的延时需求,做延时的适配及优化(在非常低的延时下达到接近不限延时的压缩效率)、算力自适应(根据不同的设备自适应调节编码的速度档次)。

编解码内核包括码控及前处理、编码工具集、快速算法,编码框架等优化。系统平台包括基于ARM平台的(armV7/arm64)及X86实现(SSE/AVX)、目前在考虑基于FPGAASIC的实现,还有质量评价系统和训练集群来辅助编码器研发。

03

视频处理提升画质体验

下面介绍视频处理提升画质体验的观点。

3.1 视频处理提升画质

8c4e1dba-bc62-11eb-bf61-12bb97331649.png

视频失真来源于很多方面:包括过曝失曝、缩放、失焦、频闪、色彩损失、压缩损失、噪声、抖动、帧率下采样。我们有自己的视频增强工具集做对应适配比如去块失真(DeBlk)、超分辨率(偏向端侧的和服务端不同版本的模型)、纹理细节增强、视频去抖(DEI)、色彩增强、暗光增强、时空域去噪。

3.2 淘宝短视频窄带高清转码

8cd048b2-bc62-11eb-bf61-12bb97331649.png

淘宝短视频的整个转码迁移到窄带高清技术上,从视频生产链条分为内容编辑、上传(上传要求上传成功率高、速度快,我们有多PASS上传,切分上传、转码、审核(有低质、失真视频需要筛选)、播放(根据播放设备能力做后处理及渲染)。

向大家介绍一下转码服务,它的核心技术是窄带高清和S265,分别有两个视觉处理模型。首先是窄带高清的处理模型包括质量分类,细小纹理去除、脱焦区域弱化(节省码率)、易感知纹理增强(增强视觉体验)、人脸保护(避免过度增强引起体感不好)、马赛克修复、去隔行扫描。

S265视觉压缩模型有三个点,人眼感知与失真拐点(BD-rate曲线刚开始较陡,向后较缓,要找到高性价比的点,感觉不出更多的失真又可以达到合适码率)、码率与分辨率甜蜜拐点(不同码率在不同内容上适合于不同分辨率压缩。如果一个非常低的码率300K强行压缩1080P出来都是块主观体验很差,如果压缩540P、360P可以获得更高的视觉体验)、场景分类编码(不同分类场景适合不同编码参数、码率的选择)。

3.3 电竞场景中的美颜

8d3c0f84-bc62-11eb-bf61-12bb97331649.png

在内容生产中美颜作为一项基础功能,已经被人们广泛接受,但是常规美颜在电商场景中存在一些问题,比如过度美化,商品变色,背景模糊,资源消耗大等等;在PixelAI美颜中,我们使用了Face3D重建来保障形变的自然,使用AI肤色模型来保证美颜不会伤害到背景和商品。

3.4 HDR10端到端系统

8d8842fa-bc62-11eb-bf61-12bb97331649.png

随着采集和显示设备的发展,HDR+10Bit逐渐有一些应用,我们觉得HDR10有三项核心技术:第一是动态范围。在低照度、曝光过度场景下帮助我们看清内容;第二是色域空间。支持BT2020提升色彩还原;第三是10bit位深。HDR对我们的商品还原会非常有帮助,因为电商直播和短视频中最核心的是还原商品而不是美化商品。

但HDR是一个端到端的系统,需要考虑到各种设备的兼容,所以我们做了一些适配来提升用户体验,比如普通相机拍出的内容就用普通通道传输解码,而一些高端设备支持HDR10,可以把内容做10Bit压缩,传输,在对端根据播放设备能力,做HDR To SDR、10Bit To 8Bit的转换来保证质量,对于好的手机就可以得到最好的HDR体验,一般手机也能得到基础的HDR体验。图中可以看到HDR技术使照片颜色更接近实物颜色。

04

音频技术提升体验和生产力

第三个观点是视频技术提升体验和生产力。音频在过去几年都伴随视频出现,而在去年Clubhouse的发布,大家觉得音频可以独立玩,这对音频技术来说是一个很好的启发。除此以外,音频的技术还可以辅助我们做内容的生产、审核及各种音频处理,个人认为音频会是后续很重要的生产力。

4.1 业务:用户数和时长

8dbfbe1a-bc62-11eb-bf61-12bb97331649.png

对内容业务来说,最核心的是用户数和时长。对于技术来说,如何提升消费体验,提升主播生产效率,做好平台治理工作是核心工作。在这几个方面音频都可以起到非常重要的作用。

在主播角度,音频技术可以来做口播自动剪辑、来客提醒(不用一直守在电脑旁边)、开播辅助、字幕和配乐生成。在用户角度,音频的互动可以支持连麦、游戏、猜价格、语音评论。在平台角度,音频可以监管黄暴政、盗播、盗链、检测空镜。

8e1b401e-bc62-11eb-bf61-12bb97331649.png

分享几个典型案例。第一,音频技术提高音质体验。这是一个简单的音频传输系统,采集、预处理、AEC/ANS/AGC、编码、网络传输(FEC/NACK技术)、对端(Jitter Buffer/NETEQ)、解码、重采样。要实现高音质体验,我们在每个环节都需要做非常细致的工作:

采集中做高保真,双声道处理(Alidenoise、回声抑制、智能美声),编码中做自适应码率(HE-AAC),传输过程要保障传输质量QOS(FEC/NACK),接收中还需要原音频数据(PLC/NETEQ),播放中应用各种音效技术(3D音效、空间音效、重低音)来提升收听体验。

直播内容中,对音频的适配也非常重要。(陈老师提到一个例子:如果是音乐直播间,用普通模板做音质会很差,所以需要几套针对不同类型直播间的声音模板。)在这样的系统上,我们支持淘宝直播,语音聊天室等业务。

4.2 AliDenoise——让声音更清晰

淘宝自研的AliDenoise技术是一个智能降噪技术,可以使声音更清晰。传统的降噪是根据时域傅里叶变换+维拉增益来做,痛点是对非平稳噪声抑制差,在低信噪比失效,而AliDenoise根据端到端的语音降噪,用数据驱动方式,基于先验信噪比方法做模型训练。

还有Cache Buffer的流式处理以及1D卷积+模型小型化的工作,核心优势是降噪能力强、语音保真度高(我们做了一些竞品对比,AliDenoise的主客观指标都超过竞品)、极轻量小模型(1.6M的模型可以在普通手机实现降噪,且CPU消耗只有6%)、延时可控(可根据设备能力做延时调节)。

有三段音频,第一段是街边的场景,是原声;第二段是RTC处理后的效果(汽车走过的声音比较明显);第三段是AliDenoise处理后的效果,可以听出它对非平稳噪声的抑制很好,且人声保留度高。

第二个例子是端上互动。直播答题是前几年非常火的互动玩法,2020年双十一点淘推出了猜价格活动,答题交互从触屏到语音,需要低延时、高并发、低误识率。如果用服务端ASR做,会需要上千台服务器来支持同时在线10万人。基于这样的痛点,我们采用了自研离线ASR技术,在端上做语音识别。可以做到模型大小13M,内存大小50M,字错误率1.3%,识别延迟《50ms的水平。

第三个案例,语音技术可以辅助短视频的直播编辑生产。在“亲拍”APP中可以做到辅助“逛逛”的内容生产。内容生产中有非常多需求,包括删除无用片段、自动添加字幕,旁白、音乐标签,自动配乐、音频变速,变声,降噪。借助后台一整套技术和曲库(虾米1000万曲库、ASR以及信号处理算法),我们提供一键导入、一键编辑这样的音频功能比如停顿删除、感知配乐、自动字幕、自动变声。通过音频技术大大提高编辑效率,原先30min的编辑通过可以降到3min,质量也会比较有保证。

4.3 直播短视频音频解决方案——TaoAudio

我们给淘宝业务提供了一套直播短视频音频解决方案——TaoAudio。在业务上支持淘宝直播、点淘、逛逛、亲拍、语音聊天室等需求。在应用方案上有直播看点、直播互动、直播安全、短视频编辑。在算法技术中有三个核心技术是音频处理、音频安全、语音交互。基础设施包括端上推力引擎、云上资源、端侧设备等。

总之音频的核心是良好的音质、很强的互动体验及平台安全,在未来可能还有丰富的音乐体验。

05

淘宝音视频算法的发展

最后和大家分享淘宝音视频算法的发展。

1、下一代APG2要做到比前一代有更高的压缩效率;

2、S266的落地,将S266真实的应用到业务场景中;

3、AR+3D+多视角直播的探索。传统的直播已经固化很多年了,我们希望通过更多技术提高交互和沉浸式体验;

4、下一代窄带高清技术。以更高的质量和更低的成本呈现;

5、端侧ASR技术。前面提到的“猜价格”应用到ASR,还需要进一步提高准确率并降低成本;

6、场景自适应语音增强。传统的语音增强没有考虑到语音环境也没有做更多的自适应(比如在一个嘈杂的环境或是安静的环境分别要用怎样的模型),加入场景检测机制可以适配收音场景和听音的环境;

7、智能的音乐配乐服务;

8、大规模无参考评价系统。

以上是本次分享的内容,谢谢大家!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PC
    PC
    +关注

    关注

    9

    文章

    1950

    浏览量

    152794
  • 编解码
    +关注

    关注

    1

    文章

    138

    浏览量

    19336
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1571

    浏览量

    46434
  • 视频压缩
    +关注

    关注

    0

    文章

    27

    浏览量

    9004

原文标题:音视频算法在淘宝中的应用

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    音视频SoC与AI技术融合,带来更智能的音视频处理解决方案

    电子发烧友网报道(文/李弯弯)音视频SoC,即音视频系统级芯片或片上系统,是一种高度集成化的芯片,它将电路板上的多块芯片以及嵌入式软件全部集成到一块芯片中。音视频SoC芯片广泛应用于各种嵌入式系统
    的头像 发表于 04-26 01:20 1077次阅读

    【RTC程序设计:实时音视频权威指南】音频采集与预处理

    数据可能需要进行降噪、回声消除等预处理操作,然后再进行编码和传输。因此,设计音频采集系统时,需要充分考虑整个音视频处理流程的需求。 如果有这方面开发需求的朋友不妨来读读这本书,受益匪浅。
    发表于 04-25 10:41

    【RTC程序设计:实时音视频权威指南】新书一瞥

    本人从事音视频领域的开发,经常接触实时音视频处理相关的技术,看到这本书非常有兴趣阅读,这本书全面介绍实时音视频(RTC)技术的权威著作,该书详细讲解了RTC的基本概念、技术原理、系统设计以及实际
    发表于 04-22 09:09

    音视频解码生成:打造极致观影体验的关键技术

    在现代多媒体时代,音视频解码生成技术已成为提供极致观影体验的核心要素。它不仅能够确保音视频数据的高效传输,还能保证播放的流畅性和画质清晰度,为用户带来身临其境的观影享受。 1. 解码生成的重要性
    的头像 发表于 02-25 14:43 147次阅读

    音视频解码生成在多媒体制作中的应用

    音视频解码生成是多媒体制作中不可或缺的一部分,它扮演着将编码的音视频数据转化为可播放、可编辑的内容的关键角色。在多媒体制作的全过程中,音视频解码生成技术都有广泛的应用。 1. 视频编辑
    的头像 发表于 02-21 14:39 107次阅读

    万兴科技发布国内首个音视频多媒体大模型“天幕”

    万兴科技近日正式发布了国内首个音视频多媒体大模型——万兴“天幕”,并宣布大模型研发中心将正式落户马栏山。
    的头像 发表于 02-04 11:42 852次阅读

    音视频

    音视频技术都喜欢深究内部最核心的原理和机制,尤其是ffmpeg这个编解码库,可以说是音视频领域事实上的标准。语音智能算法,语言语义分析和理解,流媒体服务器等高端技术也都基于它而构建。希望有幸获得本书,深度学习ffmpeg核心技
    发表于 11-23 08:51

    ESP RTC音视频传输延迟测试

    音视频
    Kevincoooool
    发布于 :2023年11月11日 10:54:02

    HarmonyOS音视频开发概述

    音视频开发指导,将介绍各种涉及音频、视频播放或录制功能场景的开发方式,指导开发者如何使用系统提供的音视频API实现对应功能。比如使用To
    发表于 10-17 16:39

    打造沉浸式专业音视频体验

    AMD ProAV技术与方案分享专题研讨会 我们的生活被专业的音视频设备所包围。从零售广告中的数字标牌,到现场活动中的麦克风和大屏幕显示;从体育赛事的现场直播到行业的实时监控....。需要在不牺牲
    的头像 发表于 09-06 09:10 431次阅读
    打造沉浸式专业<b class='flag-5'>音视频</b>体验

    音视频矩阵是什么意思 音视频矩阵的主要作用

    音视频矩阵(Audio-Video Matrix)是一种设备或系统,用于管理和控制音频和视频信号的传输和分配。它允许用户根据需求选择和路由不同的音频和视频源,并将它们传输到所需的输出设备,如扬声器、显示器、投影仪等。
    发表于 07-20 15:16 2096次阅读

    AIGC或成为音视频的核心技术之一

    您认为大语言模型的出现和AIGC技术的发展为音视频带来了哪些最直观的变化?
    发表于 07-06 12:47 1287次阅读
    AIGC或成为<b class='flag-5'>音视频</b>的核心技术之一

    音视频开发:实时传输与处理音视频流的技术与应用

    音视频
    YS YYDS
    发布于 :2023年06月27日 18:20:58

    基于WebAssembly构建Web端音视频通话引擎

    Web技术在发展,音视频通话需求在演进,怎么去实现新的Web技术点在实际应用中的值,以及给我们带来更大的收益是需要我们去探索和实践的。LiveVideoStackCon 2022北京站邀请到田建华
    的头像 发表于 06-26 15:56 480次阅读
    基于WebAssembly构建Web端<b class='flag-5'>音视频</b>通话引擎

    音视频集成是什么 音视频视频有什么区别

    音视频集成是将音频和视频设备、系统和技术进行整合,以实现全面的音视频功能和体验的过程。
    发表于 06-19 17:14 1792次阅读