0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“玲珑”编解码融合架构助力视频多元化需求

LiveVideoStack 来源:LiveVideoStack 2023-05-20 11:23 次阅读

随着近年来 AI 技术的兴起,视频监控、汽车、智能家居、移动设备及数据中心等对高清视频处理有了越来越高的要求。安谋科技全新视频处理器——“玲珑”V6/V8,针对主流市场的视频流媒体技术进行了大量投入,通过一系列智能权衡实现了极大优化,为所有合作伙伴提供灵活的组合和选择。LiveVideoStackCon 2022北京站邀请到了安谋科技多媒体产品经理董峰,为我们分享“玲珑”编解码融合架构助力视频多元化需求。

此次是安谋科技在LiveVideoStack大会的演讲首秀。安谋科技是中国最大的芯片IP设计与服务供应商,在立足全球生态、深耕本土创新的基础上,坚持以自研IP技术的创新发展与Arm IP相配合,为本土集成电路产业提供丰富的产品组合和解决方案。

自2018年独立运营以来,安谋科技坚持开展自研IP和发展Arm IP业务,一方面是结合中国市场需求积极布局自研业务,坚持“全球标准,本土创新”,陆续推出“周易”NPU、“星辰”CPU、“山海”SPU以及“玲珑”ISP&VPU等自研IP成果,并全部实现了客户相关芯片产品的流片和量产。另一方面,安谋科技也致力于将Arm 先进的架构和技术引进国内,满足国内公司开发具有全球竞争力产品的需求。在两大支柱业务的合力之下,目前安谋科技已打造一体化、完整的异构计算IP核心矩阵,助力中国智能计算产业高速发展。

芯片IP厂商需要考虑多元化的需求,应当满足不同场景下的不同诉求。对于视频来说,无论是端、边、云都有很大的视频编解码需求。端侧手机、IPC、无人机等不同场景对视频编解码的需求存在较大差异。而云端和车载则是完全不同的方向。手机以及安防在编码和解码方面差异也较为明显,手机客户解码需求更强,但是旗舰机对于一些图传也存在不同需求。作为IP厂商如何面对复杂多变的市场需求是首当其冲的问题。

57d7d058-ed66-11ed-90ce-dac502259ad0.png

安谋科技VPU团队在2019年底成立,从2020年初开始研发自研产品。我们团队从Arm Mali-V52的维护开始,逐渐完成两代产品的研发。为了更好地满足行业基本格式需求,我们新增了AVS2和AV1格式,“玲珑”V5/V7花费了近三个季度完成,“玲珑”V6/V8则花费了将近一年。除了增加格式之外,还增强了整体编码能力。“玲珑”V5/V7的HEVC编码质量与Arm Mali-V52/76相比提升了15%,“玲珑”V6/V8的H.264编码质量也比“玲珑”V5/V7提升了10%。面对多样的产品需求,增加了复杂的前后处理,“玲珑”V5/V7增加了Any ratio downscaling的后处理;“玲珑”V6/V8增加了OSD的前处理,以及YUV到RGB的后处理。

57ec1090-ed66-11ed-90ce-dac502259ad0.png

“玲珑”VPU支持全格式,整体面积较小。“玲珑”V5全格式支持包括前后处理P&R之后是1.83。芯片IP行业一直在追求更高的性能、更小的功耗和更小的面积,产品在迭代过程中针对上述问题的改进还是颇有成效。在整体架构方面也有别于其它架构,“玲珑”VPU以单核实现编解码融合,既可以编码也可以解码,以适用于多样场景的需求。不只是硬件格式的支持,还囊括了可编程的软件部分,以满足对多种场景变化的需求。

在硬件层面上,“玲珑”VPU添加更多灵活可配的接口,其它能力通过软件层面实现扩展。该产品整体是5个MCU的结构,不同的MCU对应控制不同的硬件加速器。在spec分析阶段,需要考虑哪些可以固化、哪些可以通过灵活的软件配置实现,再将可固化的部分做成纯硬件。

尽管端和云对处理器性能要求差异巨大,但是从芯片IP角度出发,还是希望能用统一的方式来支撑不同场景的需求,基于多核的可拓展性对性能进行扩展,通过扩展核数以支持不同场景需求。例如,端侧客户单核即可满足需求,而边缘侧大致需要四核,那云端基本需要八核。在7nm制程前提下,八核基本可以实现8k@60fps编码或8k@120fps解码。

58034724-ed66-11ed-90ce-dac502259ad0.png

除了上述的多核可拓展性之外,“玲珑”VPU对于MCU本身也会有所考量。不同于Arm Cortex A和Cortex M的核,其单独为视频场景进行定制优化,基本上仍然是5级的流水。而在频率方面,和整个VPU同频。16FF下至少可达到800MHz。由此可见,该核本身就可以保证其性能,在视频场景下更侧重于加速器的控制,所以不会让其触碰pixel内容,在指令集方面也做了很多优化。

除了6个加速器之外,“玲珑”VPU还有两个DMA相关的单元,一个是SDMA,另一个是VDMA。VDMA主要用于处理Frame级别的数据,包括编码的输入数据和解码的输出数据,前后处理也可以通过该单元灵活扩展。这几代产品的迭代都是把功能分散到不同的加速器以及top层上。应对不同场景的需求,除了性能和基本功能之外,系统层面仍然有差异化的需求,多路的隔离、系统访存延迟优化、降带宽、降延时等都属于系统层面的优化,也和Arm的生态保持一致。

58137d9c-ed66-11ed-90ce-dac502259ad0.png

在系统层面,通过降带宽、降延时来应对大带宽系统的需求,基于AFBC,可与Arm GPU以及Display搭配进行,内部中间的参考帧使用AFBC压缩,可让带宽在输入和输出都不压缩的情况下降低35%。在GPU使用VPU解码数据进行纹理渲染时,整体的带宽可降低至原先的45%。在Display场景中,也可以达到类似的效果。除了整个数据流,中间的参考帧数据也可以单独拿出来为后面的单元进行相对地管理,也可以有效降低带宽。“玲珑”VPU围绕各个层面进行统一考量,以更好地降低带宽需求。

581bc6a0-ed66-11ed-90ce-dac502259ad0.png

VPU不仅需要在视频场景中考量系统层面的优化,也需要从系统层面进行考量,内部的并行也可以在top ram进行优化,以减少多核之间的内存访存。VPU与CPU处理器、视频、显示的联合也可以做到类似的效果。

582e866e-ed66-11ed-90ce-dac502259ad0.png

就AFBC本身而言,也分为不同的版本。AFBC是Arm Frame Buffer Compression的缩写,简单理解就是Arm系统层面上的无损压缩,主要目的是带宽的优化。AFBC的能力是基于Arm整个IP层面来实现的,是在系统层面的整体优化。对于ISP而言,Arm也有专用的AFBC模块用来连接ISP,端侧场景也可以在视频里直接输入AFBC数据以减少带宽。AFBC的好处很多,尤其是对rotation十分友好,系统层面通过AFBC就可以绕过rotation这种耗带宽的处理,从原始数据进行rotation的访问,对于系统的总线来说存在不小的压力。但通过AFBC的方式在内部优化rotation,能够支持连续的访问,这种方式更简单高效。此外,AFBC的不同格式也对系统的随机访问有所支持。

58403b52-ed66-11ed-90ce-dac502259ad0.png

“玲珑”VPU原生就支持多路,端侧场景也需要多路,对于云端场景来说多路更是刚需。应对多路复杂多分辨率的场景,也是巨大的考验。“玲珑”VPU通过核心调度器负责多核调度,多核并行按照条带级别划分任务,任何核都可以通过核心调度器硬件直接调度。“玲珑”VPU原生硬件可支持4个上下文,4路不同场景都可以通过核心调度器进行切换。而总线仲裁器则负责系统层面的访问,与核互联以整体判决,从而优化缓存,在输出时可通过AXI进行。三步结合,一起对访存进行优化。

585be532-ed66-11ed-90ce-dac502259ad0.png

为应对云端和边缘场景,除了对核进行优化之外,硬件也要进行优化。低功率可以通过LPI接口得以实现。整体来看,多核、异步处理是优化过程中的核心部分。不同的要求可以使用不同的管理策略,灵活配置能够更好地服务客户。

586d200e-ed66-11ed-90ce-dac502259ad0.png

REF主要用于处理参考帧的访问,可通过随机访问以达到性能的优化。

587b6100-ed66-11ed-90ce-dac502259ad0.png

“玲珑”VPU内部的算法十分灵活,ME的目标也很灵活。产品编码的迭代更多是在ME层面上实现。

“玲珑”VPU架构里的软件控制同样灵活,面对相应的需求可及时调整。实力强劲的厂商也可以使用自己的ME。对于ME的接口开放也是非常灵活的。

5888a0f4-ed66-11ed-90ce-dac502259ad0.png

尽管MC较为标准,但对于硬件的实现也较为灵活。

58938424-ed66-11ed-90ce-dac502259ad0.png

Transform在这里主要负责所有的变换,融合了不同的格式,也可以通过参数控制。

589e7b0e-ed66-11ed-90ce-dac502259ad0.png

58a96fbe-ed66-11ed-90ce-dac502259ad0.png

RASC主要负责整体的管理,数据流也是核间的IPC所控制管理的,具有较高的灵活调度性,可避免硬件本身的风险。RASC的设计比较考验整体的设计能力,“玲珑”VPU采用了一个小的MCU,基本上所有的代码和数据都在ram里,缓存也与其它同类产品有所区别,我们拥有外部模块的快速访问接口。

58b59adc-ed66-11ed-90ce-dac502259ad0.png

MMU整体考量方向包括多路和安全,多路本身就需要完整的内存层面的隔离,MMU VA32bit和PA40bit,基本上可以满足所有场景的需求。

58c27662-ed66-11ed-90ce-dac502259ad0.png

在属性管理方面, protect、可执行等方面属性与SMMU类似,但与Arm SMMU整体架构不同,此处MMU更像是GPU内的MMU,想要应对每个处理单元的访问,每个uTLB都应该有所配置,Micro uTLB和PTW也都有相应的优化。

58d03b44-ed66-11ed-90ce-dac502259ad0.png

58dceb1e-ed66-11ed-90ce-dac502259ad0.png

SDMA是一个更为标准化的DMA。除了bitstream之外,还要应对多个硬件加速单元控制结构之间的传输。所以“玲珑”VPU在硬件加速层面有很多细节处理,用以满足整体系统层面的优化。

58ebb57c-ed66-11ed-90ce-dac502259ad0.png

58f60798-ed66-11ed-90ce-dac502259ad0.png

Frame级别的控制管理都是由VDMA进行的。可以看到与FORMATTER相关的前处理都在FORMATTER里进行,前后处理也有各自的数据通路。最新一代的“玲珑”VPU要比图中所示增加了更多新的功能,前后处理层面也有更多的扩展。

5903c176-ed66-11ed-90ce-dac502259ad0.png

Deblock是滤波的模块,用以应对不同格式filter的需求。

5910ac2e-ed66-11ed-90ce-dac502259ad0.png

Bitstream是编码解码码流处理模块,也是用于应对不同格式。在系统层面的 Bitstream会相对独立,在系统层面划分为“和流相关”或“和frame相关”,硬件控制会在系统层面进行两步划分,无论是编码还是解码,都要先MB在级别的划分。

5921a0d8-ed66-11ed-90ce-dac502259ad0.png

这张图是解码的基本程序,码流、MB、MV等信息都会进行保存。

59354cd2-ed66-11ed-90ce-dac502259ad0.png

编码过程也与解码过程类似。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • RGB
    RGB
    +关注

    关注

    4

    文章

    763

    浏览量

    57417
  • ARM处理器
    +关注

    关注

    6

    文章

    346

    浏览量

    41327
  • 视频编解码
    +关注

    关注

    2

    文章

    51

    浏览量

    11637
  • HEVC
    +关注

    关注

    1

    文章

    36

    浏览量

    23817
  • ai技术
    +关注

    关注

    1

    文章

    1141

    浏览量

    23707

原文标题:“玲珑”编解码融合架构助力视频多元化需求

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【RTC程序设计:实时音视频权威指南】音视频编解码压缩技术

    实现更高的压缩比和更好的图像质量。两种都是有损压缩的技术,可以通过平衡压缩比和图像质量,选择不同的质量级别。 视频编解码也是一种用于压缩和解压缩数字视频数据的技术,期待视频通信存储
    发表于 04-28 21:04

    编解码一体机的主要应用场景是什么?

    编解码一体机是一种集视频编解码、音频编码以及数据传输功能于一体的多媒体设备,广泛应用于各个领域。以下是编解码一体机的几个主要应用场景: 来百度APP畅享高清图片
    的头像 发表于 01-31 14:57 201次阅读
    <b class='flag-5'>编解码</b>一体机的主要应用场景是什么?

    编解码一体机相对于传统的编解码设备有哪些优势?

    编解码一体机相对于传统的编解码设备具有多个优势。以下是编解码一体机的几个主要优势: 高效实时的视频处理能力:编解码一体机采用先进的
    的头像 发表于 01-31 14:56 478次阅读
    <b class='flag-5'>编解码</b>一体机相对于传统的<b class='flag-5'>编解码</b>设备有哪些优势?

    编解码一体机:提高视频处理效率的关键

    编解码一体机是一种集视频编解码、音频编码以及数据传输功能于一体的多媒体设备。相较于传统的视频处理方式,它能够显著提高视频处理的效率。 传统的
    的头像 发表于 01-31 14:52 147次阅读
    <b class='flag-5'>编解码</b>一体机:提高<b class='flag-5'>视频</b>处理效率的关键

    如何选择最适合你的编解码一体机?

    选择最适合自己的编解码一体机需要考虑以下几个方面: 应用场景:首先需要明确编解码一体机的应用场景,如视频会议、安防监控、教育录播等。不同的应用场景对编解码一体机的性能要求不同,需要根据
    的头像 发表于 01-31 14:49 224次阅读
    如何选择最适合你的<b class='flag-5'>编解码</b>一体机?

    编解码一体机:技术、应用与挑战

    编解码一体机是一种集视频编解码、音频编码以及数据传输功能于一体的多媒体设备。它基于云计算技术,具有高效、实时的视频处理能力,广泛应用于安防监控、视频
    的头像 发表于 01-31 14:48 176次阅读
    <b class='flag-5'>编解码</b>一体机:技术、应用与挑战

    编解码一体机看视频处理技术的未来

    编解码一体机的发展趋势来看,视频处理技术未来将朝着以下几个方向发展: 高效编解码技术:随着视频分辨率和码率的不断提高,对编解码效率的要求也
    的头像 发表于 01-31 14:47 167次阅读
    从<b class='flag-5'>编解码</b>一体机看<b class='flag-5'>视频</b>处理技术的未来

    编解码一体机在流媒体传输中的核心作用

    传输带宽的需求,还能降低存储空间的使用。 实时传输:编解码一体机支持实时传输协议,能够实现音视频流的实时传输,保证流媒体服务的实时性和流畅性。 协议转换:编解码一体机能够实现不同协议之
    的头像 发表于 01-31 14:20 143次阅读
    <b class='flag-5'>编解码</b>一体机在流媒体传输中的核心作用

    什么是编解码一体机?

    一体机还支持多平台和多终端访问,允许用户通过PC、手机、平板等设备随时随地访问和处理视频内容。 编解码一体机具有许多优势。首先,它能够实现高效、实时的视频处理,满足各种应用场景的需求
    的头像 发表于 01-31 14:19 246次阅读
    什么是<b class='flag-5'>编解码</b>一体机?

    视频编解码器-晶振应用选型方案简介

    随着科技的日新月异,视频编解码技术也将迎来新的发展机遇,5G网络的普及将进一步提升视频传输速度和质量,为视频编解码器的发展提供更广阔的空间。
    的头像 发表于 12-09 10:55 475次阅读
    <b class='flag-5'>视频</b><b class='flag-5'>编解码</b>器-晶振应用选型方案简介

    网络解码矩阵:满足各种视频解码需求的利器!

    讯维网络解码矩阵是一种强大的视频解码解决方案,能够满足各种视频解码需求。无论是在线直播、
    的头像 发表于 09-04 10:24 395次阅读
    网络<b class='flag-5'>解码</b>矩阵:满足各种<b class='flag-5'>视频</b><b class='flag-5'>解码</b><b class='flag-5'>需求</b>的利器!

    字节跳动旗下火山引擎自研的视频编解码芯片已出片

    字节跳动旗下火山引擎自研的视频编解码芯片已出片 在8月22日的一场活动中,据字节跳动视频架构负责人、火山引擎视频
    的头像 发表于 08-23 18:56 1688次阅读

    openharmony怎么调用GPU进行视频和图片的编解码

    openharmony怎么调用芯片里的GPU进行视频和图片的编解码? 每个不同的芯片需要单独调整适配吗?
    发表于 08-14 15:10

    openharmony怎么调用芯片里的GPU进行视频和图片的编解码

    openharmony怎么调用芯片里的GPU进行视频和图片的编解码? 比如RK3588等。openharmony 3.2 Release。
    发表于 08-14 15:04

    国产8K视频的落地,离不开新的编解码标准

    电子发烧友网报道(文/周凯扬)数字音视频的兴起,与优秀的编解码标准可谓息息相关,但也在这些年的发展中遇到了不少阻碍。诸如H.264、H.265等主流编解码格式,常常面临着高昂的专利费用。而反观一些
    的头像 发表于 06-26 09:18 1869次阅读
    国产8K<b class='flag-5'>视频</b>的落地,离不开新的<b class='flag-5'>编解码</b>标准