0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

盘点AVS编码标准的技术现状与媒体编码的未来

BYXG_shengwang 来源:未知 作者:胡薇 2018-10-24 17:17 次阅读

本文整理了北京大学教授马思伟在 RTC 2018 实时互联网大会上的分享,从技术、编码与传输角度,分享了媒体编码的现状与未来,以及 AVS 编码标准的技术现状。

我的演讲主题是《新媒体编码时代》。这里的“新”有两个含义,第一是指新时代,技术与应用场景出现创新;第二是指媒体“新”,需要编码的材料数据改变了。

我在 RTC 2017 曾讲过《视频编码未来简史》。当时叫视频编码新时代(如上图图解),革命之一是采集革命,采集的数据发生了变化,视频从标清向高清、超高清方向发展。还有其它的一些数据,包括光场、点云、神经脉冲。理论也有很多,包括传统的奈奎斯特采样、压缩感知。

革命之二是计算革命,编码计算提升了很多,有 CPUGPU、NPU,计算能力的提升使得原先因太过复杂而无法使用的算法变得可用了,提高了编码效率。

第三个是认知革命,数据处理有了新的方法,处理能力更强了,业界谈的比较多的方法就是深度学习

基于这三个革命,编码在朝智能编码的方向发展。其实,智能编码并不是新概念,80年代后期到90年代中期,业界一直在讲智能编码。不过,到现在为止智能编码还始终处于第二代。

今天,我从三方面讲:新媒体,我们看到新的数据类型要编码;新技术,技术从编码、传输、跨媒体智能讲,我们朝智能方向发展了;新应用,一般是大家说的 4K、8K、VR 这些应用。

1

新媒体编码时代:新媒体

首先讲新媒体。很多人介绍自己专业的时候通常说我是做数字媒体技术的,或多媒体技术的。我们要把媒体和技术分开来看,所谓的技术是计算机对媒体的处理技术。在以前“通信基本靠吼,交通基本靠走”的年代,没有媒体,后来出现了文字,再后来,声音、视频、图像可以保存,随后催生了新的产业。接着出现了 3D、AR、VR,最后到智能媒体。总的来说,技术催生新媒体的诞生,这是关于媒体的介绍。现在提的比较多的凡是包含三维信息比如光场、点云的媒体都统称为新媒体、三维媒体,这些不是新名词,只是现在我们强调的越来越多。

关于沉浸媒体,在今年的 ACM Multimedia Systems 大会上,Philip Chou 提出,“Holograms are the Next Video”。在他看来,全息是下一代视频。上面有两个图,1977年的星球大战电影里,出现了光场投影,是那时候我们最初对三维沉浸媒体的想象。右图则是2018年的想象。我们已经想象了40多年。Philip Chou 在会上有两句话我印象很深刻,一句话是“Hologram compression today is like video compression in 1988”。王田博士也讲到,今天的点云编码水平,相当于 30 年前视频编码的水平。1988 年时 MPEG 刚刚成立,当时只有 JPEG。MPEG1-VCD 是在 1992 年才出现的。另一句话是关于流媒体的,“Hologram streaming today is like video treaming in 1997”。1997 年,国际会议在讨论流媒体技术。我想,当初讨论流媒体技术的人看到今天互联网流媒体的发展,应该是感到很震惊的。还有一句话,“如果你看到了视频的发展趋势,那么你一定会同样看到全息的趋势。”所以,沉浸媒体是未来的趋势。

关于沉浸媒体提供的感觉,主要有三类:视觉、听觉、交互。视觉要提供更高分辨率,分辨率上去之后才更清楚、更清晰。听觉方面,要高质量、三维全景声,感觉好比演唱会、演奏会。交互方面,讲求低延时、交互自然。

沉浸式媒体的系统是比较复杂的,从前端采集到中间编码传输到后端显示时间,每个模块都是相互关系很强的,每个模块都得做好才能呈现好的效果。

相关的组织都在做很多的研究,大概可以分成上图这样几个层次,第一个层次是关于最基本的数据的表示,看到的 JEPG 图像、MPEG 视频、IEEE、AVS;中间层是关于应用,比如 VR-IF,3GPP 等国际组织都在演讲。上层是体验,用户端体验做不好用户肯定不接受,包括 ITU-T、VQEG、QUALINET 等组织。

我们今天关心的主要是最底层的编码技术表示。今天另一场演讲中,王田老师提到了沉浸式媒体,这是 MPEG 目前做的工作标准。这些技术的应用从早先 MPEG1、2,后来到了 MPEG4,H.265 等等。

我们今天主要说的是 MPEG-I,沉浸式媒体。上图是 MPEG-I 的发展路线图,只包含视觉相关的,不包含音频的内容。其中之一是关于 New Video Codec,还有点云,从静态对象到动态对象,以及光场,包括相机阵列等。

我们熟悉的是手机数码相机上都在用的 JPG。但实际上 JPEG 做了很多,其中一个是 XL,新一代图像压缩;另一个是 PLENO,光场图像压缩。

AVS 一直都在做高效视频编码,做的是面向广播的编码。从 2002 年开始,至今已经 16 年了。2006 年成为国家标准,进展比较快,2012 年能 AVS 成为广电行标,2016 年 AVS2 成为广电行标,也是国家标准。目前在4K的超清广播应用比较多,今年 10 月做试运行,明年北京冬奥会会有 4K 的超清广播。对于 VR,AVS 有一个 HV 的工作组,有专门面向 VR 的HV1857.9视频标准。

先普及一下沉浸式视频的多维度属性。包括分辨率,从标清到高清到超高清,有更高的帧率、更高的采样精度,更多的模型数据,色域更丰富。

全景视频方面,视场角中的 1° 能看到 60 个像素就可以达到视网膜级别。如果是 4K ,视角是 36°,平均下来每度 100 多个像素。有时候说看 4K 就够了,不需要 8K 了,依据是从这儿来的。但实际上,8K 之后视角变得更大,也需要更高的像素。如果以这个算目前的 4K 全景,平均下来 1° 只有 11 个像素,离 4K 高清差的很远。为什么 4K 全景质量差?因为本身信号提供的就不够。如果要做全景视频,按照前面的分辨率算的话,像素值至少要到 22Kx11K,完全全景的话要 24Kx12K。计算下来数据量达到 4Gbps,只能等 5G 技术的到来。

还有其他媒体,点云、网格、光场、深度之间都可以转换处理,不止体现在数据格式上转换处理,后面编码的时候也可以做相应的融合。

刚才看到的都是比较传统的相机采集的数据进行编码,现在已经出现了另外一种形式的采集,是在仿生的采集(如上图)。原理是这样的。首先,视频采集的数据量很大,尤其是运动速度很快的时候,普通的相机采集的话都会出现模糊。第二,我们采集完这些视频再做处理,做特征的提取,进行对象的分析识别。这个处理过程与人的视觉识别处理是相差很远的。第一个问题,人眼是每秒 30 帧吗?肯定不是,因为人眼的获取原理本身就和传统相机不一样。那么仿生采集指的就是后端传输的是神经脉冲信号,当环境中要测那个点发生变化时才传输信号,这个原理与普通的相机采集不一样。但是传输神经脉冲信号后如何进行编码,到现在也没有完全解决。我们可以看下面这个视频,它直观解释了传统相机采集与仿生采集的区别。

2

新媒体编码时代:新技术

现在已经进入第三代标准时期。MPEGY 有 VVC(VersatileVideoCoding),俗称是万能的。AV1、AVS3,都是第三代标准。

视频编码做了这么多代标准,做编码的人会问编码效率做了这么多优化,继续做下去有没有意义?

有一个经济学的悖论:提升资源消耗效率,结果消耗的资源更多。比如,要提高煤炭的燃烧效率,后来煤炭的燃烧效率提上去了,煤烧得更多了。原理是效率支撑了更多的需求,从而带来了更多资源的消耗。带宽传送也是一样,如果我们提升带宽,进一步提升压缩效率,全景视频、点云等新的应用就会跟着来,然后带宽消耗还会更高。从这个角度来看,需要更高效的压缩技术。

再看编码的具体技术,下图是我们熟悉的框架,编码所做的工作非常精细、琐碎。整个工程就像手表里一个个连接的小齿轮、大齿轮。我们的工作就是删掉其中一个齿轮或者把几个齿轮并成一个齿轮,并让表跑得更准,更省电。

在AVS3 的时间规划上,预计明年 8 月份会发布第一版,第一版是复杂度和效率做的比较平衡的一版。2021 年会发布第二版,最终目标是面向8K、VR、流媒体等应用,编码效率比 AVS2 再高一倍。AVS3 的特征可以这从两方面看,传统技术 AVS 在做很多研究,包括块划分、运动预测、变换等;智能方面也有研究,,用神经网络做变化预测滤波,编码与传输的联合。

早先我们一直做的是信源信道联合编码。我们可以靠一些传输技术来折中编码效率,不用很复杂的编码方法就达到编码效率的提升,比如,媒体端 CDN 中存了很多视频流,不同流之间存在关联,一句话解释就是类似于 P2P 传输式,我可以在传输中利用高层的传输支持达到相关内容的更高效的预测编码。利用这种技术可以提升 30% 以上的压缩效率。

国际标准方面,2015年10月份已经开始围绕新一代 JVET VVC 标准进行讨论,现在已经三年了。技术进展很快,编码效率相比 H.265 提升 40% 以上。今年4月份在圣地亚哥开的一次会议上,有一个环节:响应提案征集,SDR 有 22 项提案,HDR 12 项,360 全景 12 项。

下图那次会提交的 SDR 提案征集。中国从 1996 年开始参加 MPEG,前期参与的时候主要是大学和研究所,没有中国的公司。但是近年,中国的公司,比如华为、海康威视、腾讯、大疆、头条等都开始积极参与国际标准的制定,这是很好的现象。同时说明中国近十年二十年来培养了不少人才,这是我们学校的贡献。也欢迎更多的公司可以参与国际标准,也可以参与 AVS 标准的制定。AVS 和 MPEG China 是一体的,加入 AVS 就相当于加入 MPEG China。

再看技术情况,新特色是体现在从信号处理到深度学习。这些提案里,有5个都用到了深度学习的技术,其中有关于预测的,也有关于滤波的。我会重点讲一下预测。

神经网络和编码之间的联系在哪儿呢?可以用一个比较简单的图来解释。下图是传统的变换,分解成变换系数,后来做量化、反量化,量化反量化之后带来失真。失真之后如何做一个最优的量化,使得量化的误差最小?最小误差范围表示成二进制的形式,S1、S2 每个数要么是 0 要么是 1。量化决策的过程,实际上是,选择 0 或者选择 1 使得整个误差最小,这就是一个优化的问题。优化的问题就是神经网络最擅长的工作,这个工作就可以交给神经网络,帮你选择是 0 还是 1,这是变换和神经网络的相通之处。

原来做帧的预测,选周围像素,找一个插值滤波器,使得插值之后要逼近预测的值,使得误差最小。如果用神经网络做的话,把周围像素传过去,神经网络帮我找加权、找偏移量。计算完之后失真最小,那么网络就训练好了。以后做预测的时候,把数据送给它就自动处理,像黑盒一样。这就是基于神经网络的预测。

目前用神经网络去做变换、预测、滤波的已经有很多了,每个模块都很多。但如果只做这些的话,还是像玩票一样。毕竟神经网络在模式识别方面应用得很好,到了编码这边做了很多,但是还没有打败传统编码,还是基于信号处理这套。

现在有了新的概念,Towards Conceptual Compression。在下图中,最底部的一行原始图像,最顶部模糊的编码的。从上面的编码,一步步推理迭代,能够生成底下的原始图像,这是用神经网络来做的。我认为可以叫做概念(意象)压缩。它强调的是,人的脑子里对一个图像有个模糊的印象,但是恰恰靠这个模糊的印象就能够做判定。这个概念正在进行中。

这是另外一个工作,刚才是用神经网络做表示、做生成,现在可以用神经网络在压缩层次上提供对这个内容分析理解的支持。传统基于信号处理的压缩,如果要进行分析会很困难。如果是基于神经网络的话,由于是基于特征的表示,对于媒体的分析理解会更加智能。

再看一看媒体分析,从多媒体到跨媒体。左边从视频到文字,给定视频后可以对应生成文字。右边反过来再从文字生成视频,从文字到视频比较有限制,限制于数据集,靠文字描述生成视频出来。这种技术再结合前边基于神经网络的压缩,智能压缩前景无限,这种技术对媒体的分析和理解肯定比传统编码更优越。

接下来的内容是关于新媒体编码。关于光场,目前光场有两类,一类是基于相机阵列,还有用一些小凸透镜,相当于集中成像。对于光场,新类型的媒体可以用现有的框架去进行编码。

对于点云,虽然我们感觉它是新数据,其实也有比较好的编码处理方法。原来图像是二维的,分成一个块一个块处理。到了点云之后是三维的,也很简单,把它分成三维的块,原来是平面划分,现在改成立体划分,划分完之后这些数据可以进行变换、预测、处理。和传统编码也可以做一个很好的结合,目前这块都是处于比较初步的阶段,还需要继续研究。

以上是点云和光场与传统的编码框架之间的结合。还有一部分是关于光场编码和点云编码,光场编码处理也可以用点云的编码进行编码框架表示。基本思想是小凸透镜成像,从每个角度情趣看这个图像,就可以看成一个球的图像。把球的图像进行分解,有一些系数,系数类似于点云的属性系数。

关于传输,编码和传输都有很大的影响。传输有些是我们比较熟悉,比如 HLS、DASH。后端基于 Tile,把内容划分成 Tile,根据带宽情况,选择传输相应质量的内容。这个工作对于全景视频传输很有用处,因为全景视频某些时候只是看某些角度,不是看整个内容,所以可以基于 Tile 的传输降低整个传输的工作量,还能提升图像的质量。

视点依赖的流媒体传输就是指全景传输。那么,我们就可以利用神经网络,提前预测人看哪块内容,提前把信号内容发送过去以获得更好的体验质量。可以基于观者本人,也可以基于其他观众的注意来预测。

神经网络智能不止是在编码,在传输上也有很多用处。再看点云的传输,也是一样的,点云数量很大,可以考神经网络来帮忙,比如点云传输划分成三维的Tile,你看哪块我给你传哪块,来降低传输工作量。

3

新媒体编码时代:新应用

新应用,有线上抓娃娃,连抓娃娃这种应用都可以搞这种火,我相信新媒体应用可以搞得更火。

还有超高清,目前看到的有 4K、8K,也有人问我们需不需要 8K。我在八年前第一次看见 8K 的时就未曾怀疑过,一定有人需要。别说 8K,16K、24K 也有其必要性。对于全景视频来讲,我们还是需要更高的质量、更好的传输支持才会有更好的节目、更好的体验。

5G 与 VR,对于全景传输、动态点云的传输都可以提供更好的支持。

智能媒体的制作,纽约大学的研究人员 Ross Goodwin 训练了一个神经网络,给它输入几部电影它自己就可以写出剧本来,然后 9 分钟的电影就排出来了。也许未来我们需要只明星的脸,不需要明星来演。

最后总结一下,The best is yet to come,最好的 TA 会来临。我们要做的事情就是拥抱新技术,携手新媒体,研发新应用,开创新时代,我的报告就是这些,谢谢大家。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    834

    浏览量

    54452
  • AVS
    AVS
    +关注

    关注

    0

    文章

    51

    浏览量

    22999

原文标题:新媒体编码时代的技术:编码与传输

文章出处:【微信号:shengwang-agora,微信公众号:声网Agora】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    哈夫曼编码怎么算 哈夫曼编码左边是0还是1

    哈夫曼编码是一种基于频率的变长编码方式,常用于数据压缩和信息传输领域。它是由美国数学家大卫·哈夫曼在1952年发明的,被广泛应用于无损压缩领域。 哈夫曼编码算法的基本思想是根据字符出现的频率构建一棵
    的头像 发表于 01-30 11:27 484次阅读

    编码器好坏怎么判断,编码器原理

    编码器(Encoder)是将输入数据转化为特定编码表示的一种技术。对于不同类型的编码器,评判其好坏可以从多个方面进行考量,包括编码质量、速度
    的头像 发表于 01-23 10:58 577次阅读

    AVS3P10实时语音编码标准获得重要进展

    传统的语音编码器,包括AVS、ITU-T等标准语音编码器,在16-20kbps左右码率时,能够恢复出高质量宽带语音;在30-35kbps,可以恢复出高质量超宽带甚至全带语音。然而,当码
    发表于 12-20 10:02 277次阅读
    <b class='flag-5'>AVS</b>3P10实时语音<b class='flag-5'>编码</b><b class='flag-5'>标准</b>获得重要进展

    信息编码技术详解

    前面介绍过,调制解调之前还需要编码,但编码根据用途来分有信源编码与信道编码。本编的主要内容是介绍几种信源编码
    的头像 发表于 11-27 10:05 267次阅读
    信息<b class='flag-5'>编码</b><b class='flag-5'>技术</b>详解

    什么是曼彻斯特编码和差分曼彻斯特编码?其特点如何?

    什么是曼彻斯特编码和差分曼彻斯特编码?其特点如何? 曼彻斯特编码和差分曼彻斯特编码是一种常用的数据传输编码方式。它们被广泛用于数字通信中,特
    的头像 发表于 11-22 16:37 4208次阅读

    什么是差分曼彻斯特编码?如何判断差分曼彻斯特编码的起始位?

    什么是差分曼彻斯特编码?如何判断差分曼彻斯特编码的起始位? 差分曼彻斯特编码(Differential Manchester encoding)是一种数字通信中常用的信号编码方式。它的
    的头像 发表于 11-22 16:32 2167次阅读

    使用基于标准的接口的框架是如何简化编码

    电子发烧友网站提供《使用基于标准的接口的框架是如何简化编码.pdf》资料免费下载
    发表于 11-14 14:10 0次下载
    使用基于<b class='flag-5'>标准</b>的接口的框架是如何简化<b class='flag-5'>编码</b>

    磁性编码器与光电编码器的区别、特性、优势

    光电编码器由光源、码盘和光电接收器组成,其中码盘是编码器的重要部分。光电编码器主要用于测量位移或角度。传统光电编码器的码盘材料通常有玻璃、金属和塑料。玻璃码盘在玻璃上沉积了非常细的线条
    发表于 10-24 10:55 1295次阅读
    磁性<b class='flag-5'>编码</b>器与光电<b class='flag-5'>编码</b>器的区别、特性、优势

    编码器和光电编码器的未来

    15年左右行业内开始掀起风磁编码器替代光电编码器,而且在22年的时候国内几家磁编发展迅速取得了很大的成绩,可是23年开始随着光电编码成本的下调技术的革新,又有客户回归到用光电的
    发表于 09-26 13:03

    欧洲电信标准化协会(ETSI)正式批准AVS3成为超高清视频编码标准

    2023年7月,欧洲电信标准化协会(ETSI)正式批准AVS3视频标准成为ETSI的下一代视频标准之一,其标准标号TS 101 154 v2
    的头像 发表于 08-24 17:21 961次阅读
    欧洲电信<b class='flag-5'>标准</b>化协会(ETSI)正式批准<b class='flag-5'>AVS</b>3成为超高清视频<b class='flag-5'>编码</b><b class='flag-5'>标准</b>

    编码技术应用

    视频的编码压缩及网络传输。在系统的节点及控制中心,设置网络录像机设备(NVR)或流媒体设备,实现视频数据的存储及分发。在系统控制中心,设置一定数量的工作站、解码器及监视器,实现视频的显示监控。 在此架构下,所有的设备,如编码
    的头像 发表于 08-17 10:22 322次阅读

    JJF1022-2014计量标准命名与分类编码

    JJF1022-2014计量标准命名与分类编码
    发表于 08-15 14:38 3次下载

    编码器及光编码芯片

    光学式绝对型编码器中也有一个会和主轴同步旋转的圆编码盘,盘中有分为许多同心圆状的透明及不透明的区域,盘的两侧分别有光源及光传感器数组,光源穿过编码盘后,被光传感器采集,采集的信息直接代表了转轴的位置;
    的头像 发表于 07-09 16:07 2654次阅读
    光<b class='flag-5'>编码</b>器及光<b class='flag-5'>编码</b>芯片

    编码器是什么?编码器有哪些分类及应用

    编码器是什么?编码器有哪些分类及应用;编码器是什么?在数字信号处理和通信系统中,编码器是一种重要的设备,用于将原始数据转换为字符序列或二进制码序列。
    的头像 发表于 05-18 11:08 3450次阅读
    <b class='flag-5'>编码</b>器是什么?<b class='flag-5'>编码</b>器有哪些分类及应用

    增量型编码器与绝对值编码

    增量型编码器与绝对值型编码器怎么选择?在进行编码器选择时,增量型编码器和绝对值型编码器是两种常见的选择。增量型
    的头像 发表于 05-08 11:28 1457次阅读
    增量型<b class='flag-5'>编码</b>器与绝对值<b class='flag-5'>编码</b>器