0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种支持AI视频处理的高容量流媒体加速卡方案

LiveVideoStack 来源:LiveVideoStack 2023-08-28 09:45 次阅读

本次要和大家分享的是AMD近期推出的新一代多媒体视频加速卡,它主要应用于视频处理场景,我们内部将它称为异构加速卡,行业同仁更认可将其称作视频处理单元(VPU)。AMD或赛灵思此前的主要业务方向是研发数据中心级加速器卡,因而大家可能对此次媒体加速卡的发布感到惊讶,实际上这背后伴随着深厚的研发背景。

赛灵思时期,我们的目标是实现FPGA在数据中心的算力落地,通过将FPGA包装为PCIE扩展卡并部署在服务器上,使客户可以按照自身需求调用加速卡的算力,最终推出了Alveo系列加速卡U200、U250和U280。

随着FaaS(FPGA as a service)的落地,我们的工作进一步转向应用化并发现了媒体加速方面的前景,因而开始进行编解码器和IP核的自研设计。赛灵思还专门收购了编解码器公司以推动VPU的开发,从而促成了上一代视频流加速器卡U30和U50的诞生。

我们认为,虽然传统的流媒体服务以及相关的视频处理、压缩是在服务器级CPU上的软件中完成的。但随着分辨率的增加,帧数要求提高,流媒体体量的增加,直播和互动流应用对低延迟的要求变得更加严格,传统的CPU不能高效地处理这种场景。因而我们开始寻求异构加速的方法,用专业的芯片/IP来处理视频流。

基于以上背景,我们认为下一代视频加速卡要支持高质量、高密度、低时延的视频处理,并要具备更好的拓展性,才能满足当前低延时、高交互、大流量多媒体应用环境的需要。

我们将此次推出的新一代加速卡命名为Alveo MA35D Media Accelerator,它是业界首款基于ASIC的5nm视频加速卡,在我们内部的芯片代号为supernova。

与我们上一代产品(Alveo U30)和传统Xilinx芯片的联系不同,它完全脱离了 FPGA,是一个专门应用于交互式流媒体大规模应用场景的针对性解决方案。它内部包含很多专用视频单元和最先进的IP核,通过PCIE Gen 5.0和LPDDR5保证带宽,充分助力视频加速服务。

66a638d6-4536-11ee-a2ef-92fbcf53809c.png

Bluewave Consulting发布的调研成果促使我们下定决心推出新一代流媒体加速卡,该项研究指出了两点,一是全球视频流媒体市场正在快速增长。据预测,流媒体的市场价值将从 2022 年的略高于 600 亿美元增至 2028 年的超过 2130 亿美元,复合年增长率约为 20%。在美国这很大程度上要归功于 Netflix、Amazon Prime、Hulu、Disney+、HBO 等服务商,国内现阶段也存在诸如优酷、腾讯、爱奇艺、抖音、快手、Bilibili等大量视频平台,甚至微博、微信和知乎等应用也在逐步推出流媒体服务,几乎所有公司都在进行流媒体方向的尝试。二是流媒体服务正在迎来转型。随着流媒体市场的增长,直播业务所占份额越来越大(例如国内的抖音等直播平台),至2021年已占到总量的70%。

66c9249a-4536-11ee-a2ef-92fbcf53809c.png

传统流媒体服务架构的形式为广播流媒体,是“一对百万”的模式,该架构下视频的输入源一般较少。以体育赛事的转播场景为例,场外的转播车组织现场的数十台摄像机拍摄赛事画面,经过剪辑上传至云端数据中心/核心网,过程中传输的流相对并不多。随后视频流被分发至CDN,广大用户通过ISP访问CDN获取视频画面。

虽然整个传输路径较长,延迟相对较大,但该场景对实时性的要求不大,并且时延相对可控。同时由于输入流较少,因而对转码的要求也不高。

迅猛增长的直播市场与传统点播场景不同,每个人都能生成自己的流媒体,个人产生的视频流可能与其他流混同,被不同人群在不同地点使用各异的终端设备观看,过程中还伴随着低时延和高交互等等要求。 这种场景的实际应用也越来越多,如online party、远程医疗、云游戏场景和Zoom、Microsoft Teams等在线会议软件。

不同用户使用的设备可能不同,导致输入源的格式、清晰度等等属性五花八门。而以上场景都具备高交互性对时延的要求相当高(如云游戏的时延要在10毫秒内),因而我们希望研发新一代芯片,能够实现低时延、高容量、多路输入(不同格式,不同速率,不同size)、多路输出、多流交互的视频处理。

671ac76e-4536-11ee-a2ef-92fbcf53809c.png

新一代直播场景是“百万对百万”的多对多模式。由于每个人都会产生视频流,流的数量将进一步增加,并且突发式的增长会越来越多。直播的高交互性使视频流传输可能将更多采用边到边传输,避免发送至云端数据中心。用户们使用的终端设备不尽相同,对视频流分辨率和码率的要求也不一样。

67445eb2-4536-11ee-a2ef-92fbcf53809c.png

为了应对直播场景带来的技术挑战,Alveo MA35D支持32路流的1080P60 ABR转码;每通道功耗仅有1W,峰值功耗约35W;4K编码的最低延时达到8毫秒,1080P可以做到单帧2ms;支持做成单个U.2/M.2 的子卡或是多卡集成部署,支持笔记本、平板、园区、数据中心等多种不同部署环境,适配用户的不同需求。与此同时,它还具备22 TOPS AI算力(INT8),可以通过AI技术来赋能智能视频处理。

上一代U30的“U”代表通用,而MA35D的“MA”代表媒体加速器(Media Accelerator),表示该卡专为媒体加速场景设计。和上一代相比,MA35D实现了全面提升,它的通道密度提高了 4 倍,每通道功耗降低2倍,压缩效率效果提高2倍,时延降低4倍。在实现以上提升的基础上,功耗仅为上一代的一半。

67c4f680-4536-11ee-a2ef-92fbcf53809c.png

接下来介绍该卡的技术细节。首先四个位于该卡芯片四角的独立编码器和两个解码器支持当前主流编码标准和下一代AV1标准;自适应比特率(ABR)缩放器支持变码率、恒定QP、CBR、VBR等多样化变换;合成器(Compositor)引擎支持多流分块拼接、分层叠加等视频合成处理,它是可编程的,可按照客户自身需求改变输出;VQ 前瞻(Look-Ahead)引擎用于在编码前分析视频流的动态特征,配合编码器实时优化参数;视频质量(VQ)和体验质量(QoE)引擎作为在线质量分析引擎可以将编码后视频的质量分析结果实时反馈至编码器和AI模块,动态调整编码器设置以达到更好的视频输出质量;AI处理器可以对视频进行一些简单的分类和检测处理,依据结果实时调整编码器参数,改善视频质量。

67f99bba-4536-11ee-a2ef-92fbcf53809c.png

我们也致力于改善编解码器的压缩效率。据AMD内部测试结果显示,在达到同等视觉质量的前提下,以X264 VeryFast为基准对比,AMD H.264编码器可实现24%的码率节省,H.265编码器可节省47%,AV1编码器可节省高达52%。如果加入AI处理环节,压缩效率还将进一步提升。

6811a962-4536-11ee-a2ef-92fbcf53809c.png

上图展示了X265和AMD AV1编码相同视频的实测VMAF测试结果。可以看到在同等条件下,AMD AV1编码视频的质量接近于X265 Slow,尤其在码率较低时表现相当好。

6838c01a-4536-11ee-a2ef-92fbcf53809c.png

AMD深度耦合前述的各类硬件单元形成了上图所示的视频处理管道,视频解码、缩放与合成、ABR缩放、AI处理、编码、质量分析等步骤全部由硬件单元完成,通过将所有视频处理功能硬化来最大限度减少CPU和加速卡之间的数据迁移。

6856f95e-4536-11ee-a2ef-92fbcf53809c.png

在云游戏和直播场景,大家可能遇到过画面内字符显示不清晰的问题,运用前述的AI技术则可对字符所在区域进行显示质量的针对性优化。

68790aee-4536-11ee-a2ef-92fbcf53809c.png

用户可通过我们随卡附带的AMD媒体加速软件开发套件(SDK)访问加速卡,它带有FFmpeg、GStreamer接口,便于快速上手。高阶用户还可以通过AMD 媒体加速器接口客制化调用加速卡的各种视频处理模块。

68949f70-4536-11ee-a2ef-92fbcf53809c.png

接下来介绍MA35D的一次视频处理性能演示,我们使用单卡双芯片同时处理两个4k60 8Mps H264流。其中一路解码后分为四个流以不同码率和编码标准输出,四个流中的三个在同服务器上使用加速卡自带解码器进行转码、编码,传输至显示器。另一路分为三个流按不同分辨率、码率和编码标准输出,同第一路中的第四个流一并无线传输至不同设备解码显示。

68bea1f8-4536-11ee-a2ef-92fbcf53809c.png

如上所示,演示过程中第一路流在同服务器下的转码和解码都达到了60fps水平,并且转码占用的CPU核1负载不大,核2到核8负责将解码后YUV数据转移至显卡,因而出现了高负载情况。处理过程中的加速卡资源占用情况支持随时调取查看。

68ffe35c-4536-11ee-a2ef-92fbcf53809c.png

上图展示了演示的实时多流多终端传输显示效果。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1603

    文章

    21328

    浏览量

    593251
  • 加速器
    +关注

    关注

    2

    文章

    745

    浏览量

    36600
  • 编解码器
    +关注

    关注

    0

    文章

    227

    浏览量

    23983
  • 视频处理器
    +关注

    关注

    3

    文章

    76

    浏览量

    15509
  • LPDDR5
    +关注

    关注

    2

    文章

    86

    浏览量

    11770

原文标题:支持AI视频处理的高容量流媒体加速卡方案

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenAI Sora模型需大量AI加速卡及电力支持

    若以每片H100加速卡3万美元市价估算,总花费将高达216亿美元(相当于1561.68亿元人民币),这仅是H100加速卡采购费用。该模型在运营时还会产生极高的能耗,每片H100能耗达到700瓦,72万片则意味着能耗高达50.4亿瓦。
    的头像 发表于 03-27 15:58 161次阅读

    英伟达发布最强AI加速卡Blackwell GB200

    英伟达在最近的GTC开发者大会上发布了其最新、最强大的AI加速卡——GB200。这款加速卡采用了新一代AI图形处理器架构Blackwell,
    的头像 发表于 03-20 11:38 420次阅读

    英伟达发布超强AI加速卡,性能大幅提升,可支持1.8万亿参数模的训练

    得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更为强大,尤其适用于AI相关任务。
    的头像 发表于 03-19 12:04 182次阅读

    英伟达发布最强AI加速卡GB200,开启新一代AI图形处理时代

    英伟达正式发布了其最新、也是迄今为止最强大的AI加速卡——GB200。这一重大发布标志着英伟达在AI图形处理领域迈入了一个新的里程碑。
    的头像 发表于 03-19 11:26 355次阅读
    英伟达发布最强<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>GB200,开启新一代<b class='flag-5'>AI</b>图形<b class='flag-5'>处理</b>时代

    今日看点丨英伟达发布最强 AI 加速卡--Blackwell GB200;三星面临罢工 存储市场供需引关注

    的 GTC 开发者大会上,正式发布了最强 AI 加速卡 GB200,并计划今年晚些时候发货。   GB200 采用新一代 AI 图形处理器架构 Blackwell,黄仁勋在 GTC 大
    发表于 03-19 11:08 858次阅读

    瞬变对AI加速卡供电的影响

    图形处理单元(GPU)、张量处理单元(TPU)和其他类型的专用集成电路(ASIC)通过提供并行处理能力来实现高性能计算,以满足加速人工智能(AI
    的头像 发表于 12-01 18:10 208次阅读
    瞬变对<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>供电的影响

    HPC领域的一款大杀器-HBX-G500大带宽加速卡

    HBX-G500是一款高性能可编程加速卡,为AI、计算、网络等领域,提供多通道的高带宽存储、高性能计算、先进高速接口等解决方案
    的头像 发表于 11-29 09:16 433次阅读
    HPC领域的一款大杀器-HBX-G500大带宽<b class='flag-5'>加速卡</b>

    瞬变对AI加速卡供电的影响

    图形处理单元(GPU)、张量处理单元(TPU)和其他类型的专用集成电路(ASIC)通过提供并行处理能力来实现高性能计算,以满足加速人工智能(AI
    的头像 发表于 11-16 17:23 653次阅读
    瞬变对<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>供电的影响

    诺基亚状告亚马逊和惠普视频流媒体专利侵权

    诺基亚状告亚马逊和惠普视频流媒体专利侵权 10月31日诺基亚在美国特拉华州联邦地区法院提起诉讼,诺基亚认为亚马逊和惠普侵权了多项视频流媒体相关的技术专利;涉及
    的头像 发表于 11-01 16:33 327次阅读

    AMD 为超低时延电子交易推出 Alveo UL3524 加速卡

    AMD Alveo UL3524 - 新款 AMD Alveo 金融科技加速卡能为交易公司和经纪商提供突破性的纳秒级交易执行性能以及 AI 赋能的交易策略 - - 解决方案合作伙伴 Alpha
    的头像 发表于 10-11 08:10 347次阅读
    AMD 为超低时延电子交易推出 Alveo UL3524 <b class='flag-5'>加速卡</b>

    AMD 推出为超低时延电子交易专属打造的基于FPGA的加速卡

    新款 AMD Alveo 金融科技加速卡能为交易公司和经纪商提供突破性的纳秒级交易执行性能以及 AI 赋能的交易策略— 解决方案合作伙伴 Alpha Data、Exegy 和 Hypertec
    发表于 10-07 14:43 135次阅读
    AMD 推出为超低时延电子交易专属打造的基于FPGA的<b class='flag-5'>加速卡</b>

    以色列 AI芯片独角兽企业Hailo与立端科技(Lanner Electronics)合作开发PCIe AI加速卡Falcon Lite

    立端科技(Lanner Electronics)达成合作,共同推出新型PCIe AI加速卡Falcon Lite。这款加速卡基于Hailo-8边缘AI
    的头像 发表于 09-15 11:14 732次阅读

    Intel媒体加速器参考软件用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、
    发表于 08-04 07:07

    数字视频时代,为什么流媒体加速CDN越来越重要?

    研究绝大多数表明,数字视频现在代表了当今最重要的媒体格式。我们正生活在媒体和娱乐历史发展的关键时刻,2023年在线视频趋势的增长仍在加速,今
    的头像 发表于 07-28 16:48 247次阅读

    使用英特尔开发者套件搭建RTMP流媒体服务器

    本文将会介绍如何使用英特尔 开发者套件——爱克斯开发板快速搭建 RTMP 流媒体服务器,并利用 FFmpeg* 实现视频推流的功能。由于 FFmpeg 后端支持 OpenVINO 赋能,所以在
    的头像 发表于 07-18 15:58 416次阅读
    使用英特尔开发者套件搭建RTMP<b class='flag-5'>流媒体</b>服务器