0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

镕铭微电子VPU如何降本增效

LiveVideoStack 来源:LiveVideoStack 2023-06-12 09:33 次阅读

当前视频行业环境下,硬件芯片的机遇与挑战并存,如何使得硬件芯片产品及方案设计更好地贴近用户、服务用户及满足用户更深层次需求?本次LiveVideoStackCon 2022 北京站邀请到镕铭微电子解决方案架构总监——蔡媛Amy,为大家介绍镕铭微电子VPU如何帮助客户实现极致增效降"本",并介绍基于新一代Quadra VPU的全球首个硬件智能极速高清产品,如何将历来成本高企的AI增强视频产品带入到规模应用中。

文/蔡媛Amy 编辑/LiveVideoStack 大家好,我是镕铭微电子解决方案架构团队负责人的蔡媛 Amy,本次分享的题目是镕铭微电子VPU极致降本增效实践,主要介绍在生产实践中,如何使用镕铭VPU产品在规模化应用中帮助客户实现极致降本增效,给大家带来新的应用方案和启发。我会从以下几个方面进行介绍:

-01-

镕铭微电子公司及产品介绍

NETINT是一家专注于新型智能存储和视频/图像编解码解决方案的科技公司,在国内的上海、北京、济南,加拿大的温哥华和多伦多都设有研发中心。NETINT自主设计的VPU可提供基于ASIC的超大规模、超高密度、超低延迟的视频解决方案,我们的视频转码器产品已被全球众多顶级大公司所使用。

镕铭微电子的使命是为云和数据中心提供强大的算力,长期愿景是成为世界上最好的数据中心芯片公司。我们的产品主要包括视频处理芯片VPU和软硬件结合的视频处理解决方案,前者在功能上提供视频编解码能力,辅助视频编解码的AI处理能力以及2D图像引擎的处理能力,后者包括三种产品形态,第一种是VPU服务器板卡,第二种是搭载芯片的视频处理一体机,第三种是基于视频处理一体机的端到端视频解决方案。

镕铭微电子是视频处理芯片 VPU 定义者和视频处理方案创新企业,镕铭微电子设计出了多款高度创新的芯片产品,被广泛应用于云数据中心、边缘计算公司及媒体内容提供商,最大程度地降低视频处理和数据储存的成本。VPU产品技术位居全球第一,并且已经成功研发两代芯片,第一代产品已经在全球头部客户处大规模验证和应用部署,同时也是数据中心大芯片领域的创业公司中出货量最大的独角兽企业。

d39e397a-08b4-11ee-962d-dac502259ad0.png

图中展示了两代产品,第一代是Logan芯片,对应Codensity T408单芯片产品和T432 4芯片产品,于2019年发布并量产。同时具备U.2/AIC的形态,来适配兼容不同型号的服务器。U.2形态的编解码卡,和2.5寸 NVMe SSD的外形一样,可以直接使用NVMe SSD的卡槽。除外,大部分服务器都具备PCIe卡槽,可以使用AIC形态的编解码卡。

第二代是Quadra芯片,基于Quadra发布了T1A、T1U和T2A产品,在海外的客户已有过万片的部署,这两代芯片无论是在应用性、稳定性还是在实际业务中都经过了客户规模化部署的验证。

-02-

镕铭微电子VPU增效降“本”实践

鉴于目前全球经济形势处于下行状态,我会重点介绍“增效降本”部分。

NETINT VPU是面向数据中心和边缘计算设计的视频/图像编解码处理芯片。那么,通常对于面向数据中心的芯片,在大规模应用部署的时候,需要考虑的几个重要因素:包括性能、成本、同构性、稳定性。性能就是字面意思,我们需要关注峰值性能、平均性能等。比如人工智能芯片,我们会非常关注他的计算能力(吞吐量):通常关心的是32位浮点计算能力。做推理预测的话也可以用8位整数,我们会关注INT8 的计算能力。显存大小:当模型越大,或者训练时的批量越大时,所需要的GPU内存就越多。对于CPU来说,我们关注芯片提供的核数,芯片的频率。对于VPU 而言,因为主要提供的是视频/图像的编解码处理,所以性能上主要是指芯片可以并发处理的编解码的路数、协同做视频处理的AI计算能力、编码延迟水平(最大延迟/平均延迟)等。

而成本和我们今天讨论的降本增效是直接相关的,成本包括TCO(整体拥有成本)、人力成本以及时间成本。

d45810a2-08b4-11ee-962d-dac502259ad0.png

图中列举了VPU系列产品性能,T408 吞吐支持8路1080P/30fps,功耗是所有产品中最低的,只有7W,而国产人工智能芯片的功耗大致在70w-100w,对于CPU,高配CPU的功耗大概是240w,对比下来,T408功耗相当低,它支持H.264/H.265 转码。T432是4芯片产品,相当于T408 4倍能力,相当于32路。

2022年发布的Quadra系列,其特点是性能相对于T408提升了4倍,单芯片支持32路1080P,T2产品是两芯片的Quadra,可以支持64路1080P30。Quadra还支持8K/60fps单路的实时转码,T2相当于支持两路的1080P/60fps的实时转码。Quadra的功耗是20w,在编解码标准上,Quadra增加了支持VP9的解码标准及AV1的编码标准,海外的应用快于国内,比如META、Google,尤其是前者超过70%的流量走AV1。国内头部公司目前更多以H.265标准为主。

d4943550-08b4-11ee-962d-dac502259ad0.png

图中展示的是Quadra关键的视频处理单元,包括编码模块、解码模块、AI推理引擎、2D图像处理引擎,以及可用于音频处理的DSP模块。芯片集成的AI 推理引擎,与视频编/解码器集成于同一芯片上,这可以让用户在同一个芯片上实现一些复杂的AI辅助编码,比如ROI辅助编码,窄带高清编码、在同一芯片上完成AI推理,编解码所有数据处理流程,这将极大地提升工作效率并显著减少延迟。

我们是全球首款基于可计算存储架构的VPU,专门为数据中心和边缘计算所设计,使用NVMe协议作为主机到硬件加速器的设备接口。NVMe是非易失性内存接口协议,旨在用于基于PCIe的存储设备,例如SSD(固态磁盘),它还可以扩展到支持可计算型存储。这样的优势包括免驱动,能够避免许多与服务器的兼容性问题,同时达到更好的延迟和数据交换能力。

除了性能之外,大家还会非常关注编码的比特效率,Quadra的比特效率在快速档上能够达到Fast和Medium之间的水平,在慢速档能够达到H.265 Slow的水平。

行业中较好的H.265软件编码器,在Super Fast档位上,开到4个线程,8K分辨率时能够达到17fps,之后即使线程数增加,其fps也无法随之提高,且CPU利用率也无法达到满载利用率。所以要用软件编码器实现8K/60fps,需要在转码系统上实现比较复杂的并发架构。而利用Quadra硬件编码器,就能够实现单芯片8K/60fps实时转码,并且单线程达到92%以上的loading,这是VPU在高分辨率视频处理上的极大优势。

在画质处理的对比结果上,相较于Nvidia T4硬件编码器,在类似档位lookahead-4,相同的PSNR下能够节省23-25%的码率,rdo开到3时,可以进一步将码率节省提高30-31%。

d4e54940-08b4-11ee-962d-dac502259ad0.png

另一个编解码的重要指标是延迟,Quadra的延迟对比T408有了更高的提升,1080p的编码延迟大概是4ms,这是单路延迟,将路数提升到32路,延迟也只增加1-2ms,大概是5-6ms,对于互动型应用如云游戏、RTC等,其QoE及QoS参数极易受延迟影响。图中可以看到Nvidia T4延迟大概是Quadra的两倍,H.264大概是三倍,达到15ms左右,X.265大概是20多倍,接近100ms,当然这都是开源的H.264及H.265,但即使对比行业内优化非常好的软件编码器,两者的差距也达到3-4倍。

最大延迟相差更明显,这是因为软件编码器的延迟波动相较于硬件编码器来说大很多。下图显示Quadra的延迟波动基本处于稳定状态,而延迟稳定对于云游戏等场景非常重要,波动较大时会影响客户体验,码率和延迟不能突然增大,显然Quadra能够更好满足需求。

d559284c-08b4-11ee-962d-dac502259ad0.png

性能和成本息息相关,在计算成本时需要考虑哪些因素?以直播场景为例,直播整个业务流程包括内容生产、内容处理、内容分发及内容播放,编解码卡位于内容处理环节,除了本身的计算成本,其码率也会影响到内容分发的CDN成本及计算/存储成本。

d5cbf444-08b4-11ee-962d-dac502259ad0.png

计算成本时需要考虑密度、折旧及功耗:

①密度:如一台32核服务器,单个服务器只能跑6路左右的H.265 1080P30FPS转码,前提还是行业内较优秀的软件编码器。64个thread的服务器可以跑12路,128个thread能够跑24路。对于T408而言,在一台机器插上24个U.2卡,能够实现整机跑200多路,密度是原来的20/30倍。

②折旧成本:如一台64核(vCPU)服务器加上编解码卡后,整机成本并不会上升很多,但其密度能够提升20倍左右,这便降低单路折旧成本。

③功耗成本:功耗会影响机柜成本支出,一个16A机柜能够容纳7台400-500w的机器,插上卡后,单个机柜能够容纳的机器数量并不会有明显变化,但其整机可运行的密度能够提升许多。

除了计算成本外,还有分发成本和存储成本,影响两者的因素是比特效率。Quadra H.265在VITS2021SmallSet dataset 基准测试集上, 最高挡的rdo level的配置下相对fast挡位能够得到8.9%的码率节省,相对于medium挡位得到4.1%的码率节省。对于直播冷流来说,使用VPU产品主要是为了降低转码的计算成本。但对于热流而言,使用VPU高画质模式可以在带宽和存储成本上获得更大的收益。

d64ed12a-08b4-11ee-962d-dac502259ad0.png

成本还包括人力成本,即接入所付出的人力代价,T408和Quadra都基于FFmpeg架构,为用户提供FFmpeg框架的lib,客户只需接入libavcodec的API即可整合现有的FFmpeg流程,无需对现有的架构做太大变更。部分用户会基于NETINT提供的Libxcoder API。在接入上和X 264/X265类似,并提供了极为灵活的编码控制,场景的定制参数。此外,在规模化运维时,为用户提供了运维工具及线上debug工具,以便帮助用户快速排查问题。

-03-

镕铭微电子VPU规模化部署实践

我们是数据中心大芯片领域出货量最大的独角兽公司,接下来为大家介绍大规模部署的相关实践。

d6e2bfb6-08b4-11ee-962d-dac502259ad0.png

规模化部署需要考虑两点,第一是同构性,如何将一张编解码卡与现有的基础设施进行简单的兼容,并在现有的算力如现有的服务器基础上进行算力扩展,从而方便地接到系统簿上进行算力扩展。第二是稳定性,也就是说在进行规模化部署时,硬件、固件/软件层的稳定性如何?

d751b8b2-08b4-11ee-962d-dac502259ad0.png

在兼容性上,我们采用的是NVMe协议,是免驱动的,一般来说,Windows、LinuxAndroid系统都会自带稳定高效的NVMe驱动程序,在装编解码卡时无需用户装驱动,我们基于NVMe 1.3的协议,能够向下兼容。在系统支持上,我们能够较好兼容Windows、Linux、Android,U.2产品还支持热插拔。规模化扩容方面,能够利用现有存储机型直接插上U.2的Quadra或T408,将一台只有几路的服务器扩展为支持200路或300路编解码卡的服务器。

而传统驱动需要自动定义其驱动程序,并存在对不同操作系统的兼容问题,尤其是Windows系统的兼容更为困难,在规模化部署时,会凸显稳定性相关的问题,如掉卡,无法识别卡等。我们采用的NVMe接口及驱动能够极大程度避免此类问题的发生。

d7e6d2a8-08b4-11ee-962d-dac502259ad0.png

关于同构性,我们提供U.2和AIC形态的卡,可以进行选择而无需配件转换,U.2和NVMe SSD的形态及协议都一致,能够复用机型。

此外,我们的功耗非常低,单卡T408是7W,单卡的Quadra U.2是20W,一般情况下插上卡后,一个机柜原来是7个服务器,现在还是7个服务器,不需要改动机架,这样有利于机器的运维。

图中右侧是Quadra的AIC形态,我们同时了提供服务器整机方案,展台有7张卡的服务器样例。

d8741b04-08b4-11ee-962d-dac502259ad0.png

算力扩展能力利用的是NVMe over fabric协议,通过高速的网卡实现服务器之间的高速数据通道,即使服务器和卡不在一台机器上,也可以实现低延迟高数据带宽的连接和访问。

d9978c46-08b4-11ee-962d-dac502259ad0.png

这是规模化落地的实例,左图是在海外的24*U.2,联合SuperMICRO提供的T408服务器整机。右图是服务器利旧实例,利旧一般采用T408,其规模化稳定性部署已经非常成熟。

da5c1a34-08b4-11ee-962d-dac502259ad0.png

在大规模部署过程中,大家可能会考虑到硬件或固件稳定性,比如接入业务后会不会导致业务有损。

在硬件稳定性上,我们有Spike/Lt-loop/DCpower反复过万次的稳定性验证、超负载、过热保护等稳定性验证,进行了严格的跌落测试,做出掉卡率、坏卡率 SLA承诺以及RMA流程承诺,从而保证问题的闭环。

在固件稳定性上,我们经过了数万片线上规模化部署验证,对解码场景能够达到业界最好的兼容性支持,并且有超7w个test case支持固件升级。

-04-

Quadra硬件智能极速高清产品

dad0724e-08b4-11ee-962d-dac502259ad0.png

大家应该非常熟悉极速高清产品,如阿里的窄带高清,腾讯的极速高清等,我们的产品也是基于AI技术与图像处理技术,通过深度学习网络,对视频画面进行感知,优化主观体验,追求较好的人眼感受,节省带宽。

而不同于其他极速高清产品,Quadra基于硬件芯片的AI推理引擎及编码做无缝配合,从而达到更好的处理效率和规模化应用的成本优势。

db37a2a2-08b4-11ee-962d-dac502259ad0.png图中对比了Quadra的处理流程和传统处理流程

传统处理流程是在视频输入后通过解码,到CPU进行处理,再给到CPU/GPU做推理运算等前处理,再给CPU做后处理,再给到硬件/软件做编码,整个流程实际上非常复杂,延迟无法达到最好的效果,而且成本较高。

Quadra AI Enhance流程都在卡内完成,在卡内解码,将数据推到AI推理引擎、编码器再输出视频,相较于传统流程来说简单了许多,无需主机侧参与,利用Quadra本身的AI计算单元实现端到端的视频质量优化。

dba8d666-08b4-11ee-962d-dac502259ad0.png

dc354754-08b4-11ee-962d-dac502259ad0.png

我们专注于VMAF,提升人眼主观效果。图中是处理前后效果对比,可以看到使用极速高清后的VMAF能够提升14%左右,Quadra还具备极强的场景泛化能力。

dc8b3f74-08b4-11ee-962d-dac502259ad0.png

在成本方面,首先,云服务对极速高清的定价是普通媒体处理的4倍,成本昂贵。通过Quadra以及提供的极速高清开关可以实现25%的转码比例,在无额外成本下支持极速高清,并且主观效果提升明显,大概达到4K@60FPS、1080P@240FPS及720P@480FPS的极速高清性能。我们希望帮助客户将历来成本高企的AI增强视频产品带入到规模应用中。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47788

    浏览量

    409142
  • asic
    +关注

    关注

    34

    文章

    1156

    浏览量

    119264
  • vpu
    vpu
    +关注

    关注

    0

    文章

    12

    浏览量

    11706

原文标题:镕铭微电子VPU 极致降本增效实践

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    助力电子产业降本增效!华秋亮相第四届中国模拟半导体大会

    流连。基于“为电子产业降本增效”的使命,华秋全面打通产业上、中、下游,形成了电子产业链闭环生态,除了PCB 制造,可提供SMT 制造和 PCBA 制造等电子产业服务——旗下的华秋智造P
    发表于 09-23 15:34

    高镍三元前驱体成套自动化装备如何‘降本增效

    赛德丽董事长刘俊才将在第十一届高工锂电产业峰会上“高镍三元前驱体成套自动化装备如何‘降本增效’”主题演讲。
    的头像 发表于 04-18 17:46 4773次阅读

    大尺寸到底能不能成为光伏行业追求“降本增效”有力法宝?

    降本增效”一直是光伏制造的最大的主题。作为光伏系统最核心也是成本占比最大的部分——光伏组件,就成为了光伏制造的核心战场。
    发表于 05-05 17:40 808次阅读

    中国海装助力海上风电降本增效

    在大咖对话降本增效·助力海风环节中,中国海装研究院副院长董晔弘与行业专家进行了探讨,同时针对海上风电建设降本问题进行了深入剖析。
    的头像 发表于 08-05 17:33 2401次阅读

    UWB科技赋能降本增效,实现智能化转型

    数字化转型成为了传统产业突破增长的战略关键。如何用科技手段实现降本增效提质,是科技型创业企业在传统产业中关注的一个突破点。EHIGH恒高通过UWB高精度定位技术,在位置物联网整体解决方案上,为公检法司、工业智能、工业安全和智慧城市四大场景提供智慧化赋能,助力传统产业实现降本增效
    发表于 05-18 14:22 563次阅读

    NVIDIA China SAE帮助客户更好的利用GPU实现降本增效

    NVIDIA China SAE (Solution Architect Enterprise)是NVIDIA中国区解决方案架构团队。我们的目标是为中国企业级客户提供优质的软硬件解决方案,帮助客户更好的利用GPU实现降本增效
    的头像 发表于 02-07 11:50 1600次阅读

    APS生产排产帮助纺织企业实现“降本增效

    APS生产排产软件可通过定义好纺织工艺流程中每个工序的资源与特征约束,包括工序资料、特征、可用机台产线、物料、时间等,实现工艺的基本资源约束,实现多任务工序的前后联动,防止生产计划混乱而导致的库存积压问题,减轻库存压力,降低企业运营成本,实现降本增效
    的头像 发表于 10-29 16:38 1817次阅读
    APS生产排产帮助纺织企业实现“<b class='flag-5'>降本增效</b>”

    循图降本增效,予力企业上云成本降!降!降!

    原文标题:循图降本增效,予力企业上云成本降!降!降! 文章出处:【微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 11-21 15:50 511次阅读

    金升阳 | 降本增效plus:工业交换机电源方案有讲究!

    金升阳 | 降本增效plus:工业交换机电源方案有讲究!
    的头像 发表于 01-05 09:50 741次阅读

    自动驾驶过冬,需要点燃“降本增效”的炉火

    迈过寒冬,即是春天:华为带来的自动驾驶“降本增效”价值
    的头像 发表于 02-10 20:47 527次阅读

    数字化领域高质量降本增效战略—亚马逊云科技云财务管理(CFM)

    2023刚开年,就有无数企业重启了降本增效这个命题。随着越来越多的企业选择在云上展开数字化转型,在云上投入的成本究竟产生了多大效用?每一笔开支花在了哪?是否还有成本优化空间? 急着完成降本KPI
    的头像 发表于 03-28 17:16 577次阅读

    制造业降本增效的关键策略与实践

    在当前竞争激烈的制造业市场,降本增效成为企业追求盈利和持续发展的核心目标。通过有效的管理和创新实践,制造业企业可以取得降低成本、提高效率的显著成果。本文将着重探讨几个关键策略与实践,帮助制造业企业
    的头像 发表于 08-30 21:18 669次阅读
    制造业<b class='flag-5'>降本增效</b>的关键策略与实践

    软硬件免费提供,360安全云助力企业降本增效

    360全面发力安全托管运营服务,颠覆传统商业模式,软硬件均免费,客户只需要根据需求为服务付费,固定成本收入大幅降低,真正实现降本增效
    的头像 发表于 09-01 14:39 405次阅读
    软硬件免费提供,360安全云助力企业<b class='flag-5'>降本增效</b>

    降本增效时代,锂电正极材料如何“智造”升级?

    目前来看,行业内数字化、智能化转型正从观念、目标、口号过渡至具体方案落地、逐步向锂电全域工厂渗透。以数字化、智能化技术为媒,助力工厂优化生产模式,真正实现由制造到“智造”,达到极致“降本增效”。
    的头像 发表于 09-18 15:38 461次阅读

    智能电表使用国产SF25C20晶圆合封MCU助力企业降本增效

    智能电表使用国产SF25C20晶圆合封MCU助力企业降本增效
    的头像 发表于 04-15 09:24 90次阅读
    智能电表使用国产SF25C20晶圆合封MCU助力企业<b class='flag-5'>降本增效</b>