0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能化编码面临的算力瓶颈 如何利用CPU解决全链路智能编码?

LiveVideoStack 来源:LiveVideoStack 2023-08-09 09:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能化编码面临的算力瓶颈

图中是一个视频转码推流的一般性流程图。主播将视频上传到上行CDN,然后再由视频处理中心进行各种前处理,包括内容理解,审核,编辑,增强和超分,然后进行编码,再推送到下行CDN,供观众观看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

红色框部分都是和AI相关的部分。智能化编码中,AI所需算力已经超过编码本身。1080p的数据超成4K,编码只需要20几个物理核,但是如果要超分,就需要一张GPU卡。一张GPU卡5000块一个月,对比下来成本优势一目了然。

根据相关视频企业公开的财报,视频转码和带宽的成本占到公司全年收入的10%左右。随着AIGC的发展,未来肯定不局限于10%,因此成本问题是我们的痛点之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全链路智能化编码的优势就在于成本节约,运维简单。下面举一个更具体的例子:

我们都知道转码方式有很多种,但CPU有两个不可替代的优势:1.高灵活性;2.高复用性。CPU的升级几乎没有成本,只需升级一下软件部分即可,以云为基础,申请一个虚拟主机,无论是docker还是container都可以随用随放,十分自由灵活,成本很低。

由于超分部分对算力的要求非常高,需要通过GPU来辅助,但同时也会引发一些问题:客户将高要求的AI负载迁移到GPU上,将编码和前处理完全分离。这就像在一间屋子里解码——发送到另一间屋子进行前处理——再转回来编码。这不仅让流程变得冗长,也对运维造成了极大负担,数据的反复调度也造成了一定时延的增加。

CPU全链路智能化编码正是解决了这一痛点。

英特尔第四代至强可扩展处理器及AMX赋能智能化编码

接下来会介绍英特尔第四代至强可扩展处理器及其内置的AI加速器AMX,以及如何利用AMX和英特尔成熟的软件栈和工具链帮助视频编解码工作者,打造全链路智能化编码。

据最新的统计数据,英特尔至强服务器在中国市场的数据中心的占有率保持在80%以上,可以说至强服务器是数据中心的基石。第四代至强一个重要的革新就是内置了数个硬件加速器,用于不同应用场景的性能加速,例如之前需要外置的PCIE插卡就已经内置在CPU内部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

从左往右第一个AMX适用于AI;QAT负责压缩、解压和加解密;DLB负责Load Balance,CDN负责负载均衡,自动dispatch到闲散的资源上;DSA负责内存拷贝,不需要CPU参与,异步拷贝不仅速度快,而且不占用CPU内存;IAA负责存内分析,更多和数据库相关,IAA可以在不解压数据的情况下分析数据。

AMX的全称是Advanced Matrix eXensions,高级矩阵扩展指令集。它在AVX512的基础之上做了进一步的扩展。AMX有两个核心思想,一个是Tiles,一个是Timo。Tiles是物理上两地寄存器的叠加,16个AVX512叠加在一块。Timo是针对两地Tiles的矩阵运算。最新的至强每一颗物力核上都有一个内置的AMX,充当AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多数加速卡一样,AMX加速的是量化精度。目前第四代至强支持的是BF16和INT8,未来也会很快支持FP8和FP16。BF16的表达范围和FP32一模一样,只是精度比FP32小一点。目前绝大多数的场景,BF16已经足够。对于训练来说FP16足矣,而推理则只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩阵乘的呢?我们在做大的矩阵时可以把矩阵拆成16*64,然后一次性计算。如果算力不够,可以用oneDNN和MLKDNN处理,而AMX加速矩阵乘计算,算力是前一代产品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

这张图是至强服务器峰值计算能力的演进过程。从2019年开始的第二代至强可扩展处理器支持VNNI,最新发布的第四代至强可扩展处理器支持AMX,可以看到每个指令周期的计算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,软件生态某种意义上说对开发者来说更为关键。这是一张英特尔 AMX的软件生态图,从下往上,从最底层的操作系统到虚拟化KVM、HyperV,再到核心AI计算库都是英特尔开发的。在框架层面,主流的TF和PyTorch也都包含在内,除此之外英特尔还提供了丰富的推理工具。这些成熟的软件生态使得我们的开发者可以专注于算法创新,而不用考虑如何部署等细节,开箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力对将AI从GPU迁到CPU之上确实有很大的帮助,但如何保证精度呢?英特尔有一个工具叫做INC,内置了很多专门用于精度的校正算法。作为开发者,只需要做三件事:输入模型、输入数据集和输入精度要求即可。INC会根据客户的输入进行tuning,直到有一个用户满意的算法。如果最终达不到设定的精度要求,还可以对某些层进行回滚,从而保证设定的精度可以达到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到视频编解码领域,我们知道视频前处理是在FFmpeg解码之后,对YUV或者RGB数据进行处理,处理结束后再送到编码器x264或者x265编码。由于整个pipeline中,数据的处理速度并不一致,因此为了让整个过程的数据顺滑地流动起来,就需要做一部分的改造,比如解码后的raw data放入一个buffer队列中,AI推理异步从这个队列中取数据做推理,并把推理后的结果送到编码器中,这需要一定量针对FFmpeg的开发工作。

幸运的是,英特尔已经帮用户做好了。FFmpeg中有一个英特尔的OpenVINO后端,用户直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2个后端,一个是Tensorflow,另外一个就是英特尔的OpenVINO。

总结:FFmpeg已经集成了OpenVINO作为AI 的后端推理引擎且英特尔有专门的团队去维护,大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

这是一个和合作伙伴的实际案例。在视频增强和目标检测这两个场景下,使用了英特尔第四代至强可扩展处理器AMX优化的AI推理性能相对上一代平台分别提升了1.86倍和1.95倍。与此同时,精度损失被控制在可接受的范围,这也使得英特尔的客户在CPU上实现了全链路智能化编码,大幅降低了部署成本和运维成本。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20148

    浏览量

    246922
  • 编码器
    +关注

    关注

    45

    文章

    3902

    浏览量

    141389
  • DSA
    DSA
    +关注

    关注

    0

    文章

    53

    浏览量

    15767
  • 硬件加速器
    +关注

    关注

    0

    文章

    43

    浏览量

    13337
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6392

原文标题:面对算力瓶颈,如何利用CPU解决全链路智能编码?

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CPU、GPU到NPU,美格智能持续优化异构计算效能

    前言AI已成为数字经济时代的核心生产,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业
    的头像 发表于 11-21 16:05 691次阅读
    从<b class='flag-5'>CPU</b>、GPU到NPU,美格<b class='flag-5'>智能</b>持续优化异构<b class='flag-5'>算</b><b class='flag-5'>力</b>计算效能

    SDI编码板CM2001S与模组CM8272:赋能工业高清视觉

    可靠性、高清低延迟特性及深度协同能力,在复杂工业环境中构建起视觉解决方案,成为推动产业数字转型的关键动力。 核心产品协同:硬件实力铸就工业级优势 CM2001S作为工业传输的“
    的头像 发表于 11-20 14:26 77次阅读

    协同!艾为电子开启端侧AI音频“精而优”时代

    不同,边缘设备更需要适配碎片场景“精而优”的解决方案。中国数模龙头艾为电子,凭借在ADC、Codec、DSP、自研算法、SmartPA等领域的
    的头像 发表于 11-12 19:02 356次阅读
    <b class='flag-5'>全</b><b class='flag-5'>链</b><b class='flag-5'>路</b>协同!艾为电子开启端侧AI音频“精而优”时代

    “汽车智能化” 和 “家电高端

    “带轮子的超级计算机” 了!而这一切都离不开 7nm 级别的高芯片:​ 智能座舱的 “大脑” 需求:现在新车流行的 7 屏联动、4K 高清显示、语音控制、人脸识别,都需要芯片有超强
    发表于 10-28 20:46

    从高清采集到抗扰传输:索尼4k模组FCB-CR8530与SDI编码板驱动工业智能化发展

    随着工业4.0 进入深度落地阶段,生产流程的精细化管控、关键设备的毫米级检测、多系统数据的实时协同,已成为工业企业提升核心竞争的关键诉求。而视觉技术作为工业智能化的 “眼睛”,正面临着 “高清采集
    的头像 发表于 09-19 11:55 548次阅读

    突破传统桎梏,PPEC Workbench 开启电源智能化设计新路径

    数据库,接入器件商城,新硬件接入能快速推荐适配方案,极大加快产品落地速度。 二、 平台优势:生命周期智能化闭环 PPEC Workbench 电力电子智能化设计平台重构了电源设计的
    发表于 08-26 11:40

    沐曦方案亮相WAIC 2025

    以“智能时代 同球共济”为主题的2025世界人工智能大会(WAIC)于7月26日在上海开幕,全球人工智能领域的技术创新与产业实践成为焦点。沐曦集成电路(上海)股份有限公司(以下简称“沐曦”)携
    的头像 发表于 08-01 11:58 7825次阅读

    多摩川编码器:为木工机械赋能智能化生产

    在木工行业蓬勃发展的今天,智能化生产已成为行业发展的必然趋势。木工机械作为木材加工的核心设备,其智能化水平的高低直接影响着生产效率、产品质量和企业的竞争。而多摩川编码器,凭借其卓越的
    的头像 发表于 07-23 16:18 392次阅读

    精准定位 高效驱动丨基于极海APM32E030的磁电式绝对值编码器参考方案,加速工业智能化转型

    编码器作为工业自动智能制造的核心组件,凭借高精度、实时反馈和智能化控制等特性,广泛应用于机器人、自动控制、数控机床、电梯、新能源等领域
    发表于 05-13 13:46 985次阅读
    精准定位 高效驱动丨基于极海APM32E030的磁电式绝对值<b class='flag-5'>编码</b>器参考方案,加速工业<b class='flag-5'>智能化</b>转型

    智能基建:RAKsmart如何赋能下一代AI开发工具

    当今,AI模型的复杂与规模提出了前所未有的要求。然而,传统的基础设施在灵活性、成本
    的头像 发表于 05-07 09:40 354次阅读

    工业4.0革命利器!明远智睿SSD2351核心板:低成本+高,破解产线智能化难题

    行业痛点:传统工业设备智能化改造面临三大瓶颈——不足导致实时性差、接口资源有限难以扩展多设备、进口方案成本高昂且供货不稳定。 核心板方案
    发表于 03-21 14:22

    国产新标杆!卓怡恒通EPC-S4450边缘AI工控机开启工业智能新纪元

    在工业4.0与数字转型浪潮的推动下,边缘计算正加速重构工业智能化版图。国内信创工业计算领域领军企业卓怡恒通今日正式发布EPC-S4450边缘AI工控机,以"栈国产+AI
    的头像 发表于 03-06 17:30 956次阅读
    国产<b class='flag-5'>化</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新标杆!卓怡恒通EPC-S4450边缘AI工控机开启工业<b class='flag-5'>智能</b>新纪元

    云 GPU 加速计算:突破传统瓶颈的利刃

    ,犹如一把利刃,成功突破了传统瓶颈。 传统的 CPU 计算在面对大规模并行计算任务时,往往显得力不从心。CPU 核心数量有限,且设计侧
    的头像 发表于 02-17 10:36 511次阅读

    单轴测径仪也可以智能化

    关键字:蓝鹏牌测径仪,智能测径仪,单轴智能测径仪,测径仪智能化,测径仪智能测控,外径智能测量,单
    发表于 12-31 13:55