0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图像处理硬件加速引擎是什么 如何提高CPU芯片性能

FPGA自习室 来源:FPGA自习室 作者:FPGA自习室 2021-06-30 15:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

什么是硬件加速引擎?

软件在CPU上执行,首先是从控制器从存储器取指(Fetch),接着控制器进行译码(Decode),然后由算数逻辑单元(ALU)执行指令(Execute),这就是指令周期,如下图所示。因此CPU每执行一个运算,都是一个流水线式调用计算的过程。普通计算机用指令运算速度衡量计算性能,而超算通常用浮点运算速度来衡量其性能。但不管是指令运算还是浮点运算,在CPU上都是线程的运算,并且要耗费n个指令周期。线程的机制决定了运算只能按部就班,执行完当前的操作才能进行下一个,所以经常电脑会卡住,因为性能不足以快速执行当前的运算。

6a120a3a-d8d3-11eb-9e57-12bb97331649.png

想要提高CPU芯片性能,最简单粗暴的办法:要么提升主频,要么增加核数:

1)提高主频:当前流片的制程限制了主频,我们一直徘徊在3-5GHz,且进一步提高主频,功耗和散热也是很大的问题。

2)增加核数:无限制的增加核数是一种非常笨拙的办法 ,并且软件不好优化,同时又受面积、功耗、散热、成本的制约,芯片良品率也将会进一步降低。

除非是云服务器类芯片等以为追求性能为目标,对能耗比不敏感的芯片,否则消费类芯片核心竞争力仍以能耗比和性价比为主。这意味着随着摩尔定律的终结,我们很难再从通用CPU榨出更多的性能,那么架构的演进也许才能突破限制——采用硬件加速器引擎(协处理器),比如采用GPU/DSP/DPU等专用处理单元加速器来完成特定的功能,提升处理的效率。

典型的在2020.11.11,apple在WWDC上发布了采用自研SOC的全芯Macbook系列产品,使用的就是最新自研的号称地表最强的M1芯片。该芯片采用了apple的手机SOC架构,由TSMC最新5nm制程工艺代工,集成了8个CPU,8个GPU(128个执行单元,可同时执行24576个线程,运算能力高达2.6TFLOPS),以及16核的神经网络加速引擎Neural Engine(即上述所谓DPU,每秒可进行11万亿次操作),硬件编解码核(硬件完成AVS、264/5等制式视频的编解码)。

这款地表最强的SOC,在同等功耗下,号称达到了2倍目前最快的CPU性能,再次刷新了数据。这里的GPU与Neural Engine,硬件编解码核等,这就我们所谓的硬件加速器。芯片充分利用硬件加速引擎,有效缓解了CPU线程运算的压力。GPU是专用的图形处理单元,Neural Engine是专用的卷积神经网络计算单元,硬件编解码是专用的视频编解码处理单元,三者异曲同工,无非就是将原本要用CPU计算的卷积/浮点运算进行了硬化,采用门电路进行并行加速运算,而非传统CPU的指令运算流程。

文章出处:【微信公众号:FPGA自习室】

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    114

    文章

    17638

    浏览量

    190227
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222918
  • 引擎
    +关注

    关注

    1

    文章

    367

    浏览量

    23366

原文标题:图像处理硬件加速引擎——不断突破限制(上)

文章出处:【微信号:FPGA_Study,微信公众号:FPGA自习室】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    硬件加密引擎在保障数据安全方面有哪些优势呢?

    硬件加速 RSA 密钥交换,使握手时间从数百毫秒缩短至几十毫秒,提升设备接入效率。 总结 硬件加密引擎是芯源半导体安全芯片 “内生安全” 的核心,通过效率、安全性、合规性、易用性的多
    发表于 11-17 06:47

    工业级-专业液晶图形显示加速器RA8889ML3N简介+显示方案选型参考表

    控制等高级显示功能,通过硬件加速(如Alpha混合)来执行这些操作,避免了由MCU软件处理带来的性能开销。核心特性: 主控端接口:支持8080/6800异步并行接口和IIC、3/4-wire SPI串行
    发表于 11-14 16:03

    常用硬件加速的方法

    之前总结了一些常用硬件加速方法 1)面积换速度:也就是串转并运算,可以多个模块同时计算; 2)时间换空间:时序收敛下通过频率提高性能,虽然面积可能稍微加大点; 3)流水线操作:流水线以面积换性能,以
    发表于 10-29 06:20

    硬件协同技术分享 - 任务划分 + 自定义指令集

    开发技术。分文将分享介绍硬件加速器与软件结合的协同开发方式 软硬件任务划分 我们的硬件设计涉及到MFCC模块。直接交由CPU的一次指令的五级流水线
    发表于 10-28 08:03

    硬件加速模块的时钟设计

    硬件加速模块需要四个时钟,分别为clk_l , clk_r , clk_c , clk_n 。 clk_l : 整个硬件加速模块为了最大化的节约时间成本而采用了类似处理器的流水线设计,具体上将每一层
    发表于 10-23 07:28

    瑞芯微RK35XX系列FFmpeg硬件编解码实测,详细性能对比!

    ,例如实时直播推流与视频会议需要低延迟保证流畅性和高效处理依赖于强大的并行计算能力。此外,在安防监控等多路视频流并行处理的应用中,硬件加速能有效减轻CPU负担,确保系
    的头像 发表于 09-30 17:46 2408次阅读
    瑞芯微RK35XX系列FFmpeg<b class='flag-5'>硬件</b>编解码实测,详细<b class='flag-5'>性能</b>对比!

    睿擎SDK V1.5.0重磅升级:EtherCAT低抖动,AMP虚拟网卡,LVGL硬件加速,多核调试等性能大幅提升|产品动态

    )。AMP模式下虚拟网卡驱动支持,双系统通信更加便利,更完善的Perfetto多核性能调试工具,AIUVC人脸识别示例,优化LVGL支持硬件加速等。并提供对应的教
    的头像 发表于 09-29 17:36 9741次阅读
    睿擎SDK V1.5.0重磅升级:EtherCAT低抖动,AMP虚拟网卡,LVGL<b class='flag-5'>硬件加速</b>,多核调试等<b class='flag-5'>性能</b>大幅提升|产品动态

    如何验证硬件加速是否真正提升了通信协议的安全性?

    验证硬件加速是否真正提升通信协议的安全性,需从 安全功能正确性、抗攻击能力增强、安全性能适配、合规一致性 等核心维度展开,结合实验室测试与真实场景验证,避免 “硬件参与即安全提升” 的表面判断。以下
    的头像 发表于 08-27 10:16 813次阅读
    如何验证<b class='flag-5'>硬件加速</b>是否真正提升了通信协议的安全性?

    有哪些方法可以确保硬件加速与通信协议的兼容性?

      确保硬件加速与通信协议的兼容性,核心是从 硬件选型、协议标准匹配、软硬件接口适配、全场景测试验证 四个维度建立闭环,避免因硬件功能缺失、接口不兼容或协议特性支持不全导致的
    的头像 发表于 08-27 10:07 650次阅读

    如何利用硬件加速提升通信协议的安全性?

    特性增强安全性(而非仅依赖软件防护)。其本质是 “将安全计算从通用 CPU 卸载到专用硬件”,既解决软件处理安全操作的性能瓶颈,又规避软件层可能存在的漏洞(如内存泄露、侧信道攻击风险)
    的头像 发表于 08-27 09:59 642次阅读
    如何利用<b class='flag-5'>硬件加速</b>提升通信协议的安全性?

    AI芯片加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行计算需求。因此,专为AI优化的芯片
    的头像 发表于 07-09 15:59 895次阅读

    瑞芯微NPU使用攻略

    核心要点:定义与功能硬件加速单元:RKNPU是集成在瑞芯微芯片中的专用NPU,专注于加速深度学习算法,如图像识别、目标检测、语音处理等,同时
    的头像 发表于 05-21 15:50 2310次阅读
    瑞芯微NPU使用攻略

    带专用协议硬件 + R-IN引擎的微处理器RZ/N1L系列数据手册

    。 *附件:带专用协议硬件 + R-IN引擎的微处理器RZ N1L系列数据手册.pdf 特性 中央处理器(CPU):Cortex-M3(主频
    的头像 发表于 03-13 15:09 772次阅读
    带专用协议<b class='flag-5'>硬件</b> + R-IN<b class='flag-5'>引擎</b>的微<b class='flag-5'>处理</b>器RZ/N1L系列数据手册

    明远智睿SD2351核心板首发:四核A35+硬核AI引擎,赋能工业AIoT

    ARM Cortex-A35架构,主频高达1.5GHz,集成智能视频引擎(IVE)与智能处理单元(IPU),支持多模态AI分析与实时视频处理,为边缘计算场景提供强劲算力支持。 核心配置亮点:
    发表于 02-20 14:11

    RK3588 原厂设计资料首次公开(规格书+原理图+设计说明+DDR参考),速抢

    的NEON协处理器。 视频处理方面: 提供了硬件加速,RK3588支持H.265和VP9解码器通过8K@60fps, H.264解码器8K@30fps和AV1解码器4K@60fps,也支持H.264
    发表于 02-05 16:52