0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

能效比达2TOPS/W!解密边缘AI芯片低功耗设计之法

Carol Li 来源:电子发烧友 作者:李弯弯 2025-05-17 00:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)边缘AI芯片低功耗设计是其在移动设备、物联网终端等资源受限场景中落地的关键。在物联网、可穿戴设备、智能家居等对功耗敏感的应用场景中,低功耗设计直接决定了设备的续航能力、部署成本及用户体验。

为什么边缘AI芯片需要低功耗设计?

从应用场景层面来看,首先是设备供电受限,如智能手表、无线传感器、可穿戴设备等依赖电池供电,低功耗设计直接决定续航时间。在太阳能、射频能量收集等自供电系统中,芯片功耗需低于能量收集速率,否则设备无法持续运行。

其二是部署环境苛刻,在工业监测、农业物联网等场景中,设备可能部署在难以更换电池或无法接线的区域。例如,桥梁结构监测传感器需连续工作数年,功耗需低于1mW。功耗过高会导致芯片发热,影响稳定性与寿命。例如,在汽车电子中,芯片需满足AEC-Q100标准,低功耗设计可减少热应力导致的失效风险。

从技术发展层面来看,首先,能效比(TOPS/W)是核心指标,边缘AI芯片需在有限功耗下提供高算力。例如,特斯拉FSD芯片以72W功耗实现144TOPS算力,能效比达2TOPS/W,满足自动驾驶实时性需求。低功耗设计可突破“功耗墙”限制。例如,传统GPU在移动端因功耗过高(>20W)难以应用,而专用边缘AI芯片可将功耗压缩至数百mW级。

其次,散热与封装成本约束,高功耗芯片需配备散热片或风扇,增加体积与成本。例如,桌面GPU功耗可达300W,需主动散热;而边缘设备芯片功耗需控制在5W以内,可采用被动散热。低功耗设计可简化封装要求。例如,采用Chiplet技术的边缘AI芯片通过2.5D封装降低互连功耗,同时减少对散热材料的需求。

边缘AI芯片低功耗设计方法

从硬件架构优化角度来看,如专用加速器NPU、DPU等,设计针对AI运算(如矩阵乘加)的专用电路,提升能效比。例如,Google TPU通过脉动阵列减少通用计算单元的冗余操作。如异构计算架构,结合CPU(控制)、GPU(并行计算)、NPU(AI推理)等模块,按任务类型动态分配计算负载。轻量级任务由CPU处理,复杂模型交由NPU,避免资源浪费。

还有一些创新架构设计方向,如存算一体化,减少数据搬运,在存储单元附近直接完成计算,降低I/O功耗。技术路径实现方面有存内计算、近内存计算。再如事件驱动架构,采用脉冲神经网络(SNN)或事件相机传感器,仅在数据变化时触发计算,减少静态功耗。

算法与模型优化角度来看,如模型压缩技术,剪枝,移除冗余神经元或权重(稀疏化),降低计算量;量化,将32位浮点模型转为8位整数,减少乘法器和内存访问能耗;知识蒸馏,用大模型训练轻量级学生模型,保持精度同时降低计算需求。
​​
如轻量级网络设计,使用MobileNet(深度可分离卷积)、EfficientNet(复合缩放)等结构,平衡精度与计算量。再如动态推理,在推理过程中设置检查点,若低层已足够准确,则提前终止计算。近似计算,允许非关键计算结果存在误差,简化运算(如低精度浮点、舍入策略)。

从动态电源管理角度,DVFS(动态电压频率调节),根据负载实时调整电压和频率,例如在空闲时进入低功耗模式(如C6睡眠状态)。多电源域划分,将芯片划分为多个电源域,按需开启或关闭(如摄像头模块仅在检测到运动时供电)。自适应功耗策略,结合负载预测(如LSTM预测任务周期),动态调整电源状态。

还有软件与系统协同方面,编译器优化,通过指令级并行(ILP)优化、内存访问合并,减少计算周期和能耗。操作系统调度,任务级功耗管理,优先调度低功耗核心处理简单任务,高负载时唤醒高性能核心。应用层策略,唤醒词检测(如Alexa的Always-On模式),仅运行轻量级模型,待检测到关键词后唤醒主模型。

小结:边缘AI芯片低功耗设计是其在真实场景中落地的必要条件,直接决定了设备的可用性、经济性和可持续性。通过硬件架构、算法优化、制程工艺等多维度协同,边缘AI芯片得以在毫瓦级甚至微瓦级功耗下运行,满足电池供电、实时响应、低成本部署等核心需求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 边缘AI
    +关注

    关注

    2

    文章

    287

    浏览量

    6242
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    向成电子XC3588E+算力卡:3W低功耗,25 TOPS硬核算力,重塑AI视觉边缘生态

    边缘AI视觉遇上低功耗高性能,一场工业与智能场景的算力革命正悄然发生。向成电子XC3588E高性能工控主板,凭借旗舰级RK3588芯片与工业级扩展能力,完美适配DEEPXDX-M1系
    的头像 发表于 05-16 10:07 470次阅读
    向成电子XC3588E+算力卡:3<b class='flag-5'>W</b><b class='flag-5'>低功耗</b>,25 <b class='flag-5'>TOPS</b>硬核算力,重塑<b class='flag-5'>AI</b>视觉<b class='flag-5'>边缘</b>生态

    DEEPX算力卡,功耗不到3W!搭载RK3588实测,25TOPS加持,助力AI视觉升级!

    在智能机器人、工业视觉等边缘计算场景中,如何在高算力与低功耗之间找到最佳平衡点,一直是行业痛点。创龙科技基于瑞芯微RK3588高性能工业评估板,已成功适配DEEPX DX-M1算力加速卡,为边缘
    的头像 发表于 05-08 11:53 175次阅读
    DEEPX算力卡,<b class='flag-5'>功耗</b>不到3<b class='flag-5'>W</b>!搭载RK3588实测,25<b class='flag-5'>TOPS</b>加持,助力<b class='flag-5'>AI</b>视觉升级!

    Supermicro推出紧凑型高能系统:以边缘算力重构AI应用新范式

    近日,全球IT解决方案领导者Supermicro(超微)宣布推出基于**AMD EPYC™ 4005系列处理器**的紧凑型高能系统,以“小体积、大算力、低功耗”的颠覆性设计,为零售、制造、医疗等领域的边缘
    的头像 发表于 04-22 14:58 2275次阅读

    5W功耗实现25TOPS算力,LM2-100-V0算力模组破解AI安防核心难题

    。针对行业核心痛点,杰和科技推出LM2-100-V0AI算力模组,以高算力、小尺寸、低功耗、易集成的设计方式,为智能安防、工业检测、零售分析等边缘AI场景提供一站
    的头像 发表于 04-03 11:34 553次阅读
    5<b class='flag-5'>W</b><b class='flag-5'>功耗</b>实现25<b class='flag-5'>TOPS</b>算力,LM<b class='flag-5'>2</b>-100-V0算力模组破解<b class='flag-5'>AI</b>安防核心难题

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    310P芯片的底层架构,深度剖析这款产品的技术细节、算力门槛及其在实际产业落地中的真实价值。 一、176TOPS的产业门槛:为何这是边缘算力的新起点? AI硬件的核心指标始终是算力,但
    发表于 03-10 14:19

    如何确保CAT.1模组的高性能与低功耗

    环境恶劣,要求零丢包 抗干扰分集技术保障指令必,避免因重传导致的生产中断或控制延迟。 总结: 我们不仅仅是在售卖一个通信模组,而是提供了一套基于华为海思顶尖芯片技术的最优解。通过
    发表于 03-05 11:41

    OrangePi RV2 深度技术评测:RISC-V AI融合架构的先行者

    OrangePi RV2是香橙派推出的一款基于RISC-V架构的AI开发板,搭载KY X1八核处理器。该板以“CPU 融合AI”为核心理念,内置2TOPS算力,并支持双M.
    发表于 03-03 20:19

    高通X85的本地48 TOPS边缘AI加上云端大模型,到底能干啥?

    酷”,而是一次网络设备的升级。 X85想做的,是让CPE从“被动连接设备”变成“思考、能做决定的网络节点”。   一、本地 48 TOPS 边缘 AI:让设备“会思考”   以前的C
    的头像 发表于 01-13 14:53 652次阅读

    瑞芯微SOC智能视觉AI处理器

    。B2版本通常在功耗、稳定性和部分外围接口支持上有所优化。NPU: 集成0.8 TOPS的NPU,支持INT8/INT16混合运算,满足大多数边缘
    发表于 12-19 13:44

    专为边缘而生:深度解析昆仑芯K100 AI加速卡,释放128 TOPS极致

    昆仑芯K100边缘AI加速卡以75W低功耗实现128 TOPS的INT8算力,重新定义边缘推理
    的头像 发表于 12-14 11:12 3304次阅读
    专为<b class='flag-5'>边缘</b>而生:深度解析昆仑芯K100 <b class='flag-5'>AI</b>加速卡,释放128 <b class='flag-5'>TOPS</b>极致<b class='flag-5'>能</b><b class='flag-5'>效</b>

    工业视觉网关:RK3576赋多路检测与边缘AI

    ~150ms6TOPS NPU 边缘AI推理易对接 MES / 追溯系统 一、产线痛点:从“人看”到“机判”的转变· 多工位/多角度同步:单机位覆盖不足,典型项目需 8~12 路并发,且画面时序一致性要求高
    发表于 10-16 17:56

    酷芯ARS45:12nm制程+10TOPS/w解锁AI眼镜新可能

    数据实时传输带来的延迟、带宽压力以及隐私风险等问题日益凸显,同时终端设备智能化升级的刚性需求愈发迫切。   在此背景下,“云-边-端”协同计算架构应运而生,而边缘/终端AI芯片作为“端侧智能”的核心载体,其重要性不言而喻。它既
    的头像 发表于 07-21 09:10 9284次阅读

    Nordic收购 Neuton.AI 关于产品技术的分析

    与 Nordic 的 nRF54 系列超低功耗无线 SoC 结合,使得即使是资源极为有限的设备也高效运行边缘 AI。Nordic 目前正在将 Neuton 深度集成到自身开发生态中,
    发表于 06-28 14:18

    RK3576 vs RK3588:为何越来越多的开发者转向RK3576?

    电子RK3576低功耗、低成本、墨水平板优化 IoT/嵌入式设备RK3576比高,长期运行稳定 高端工控/边缘计算RK3588四通道内存,高带宽需求 RK3576 的核心优势:✅
    发表于 05-30 08:46

    轻松上手边缘AI:MemryX MX3+结合Orange Pi 5 Plus的C/C++实战指南

    AI边缘计算快速发展的时代,MemryX MX3+ 加速卡凭借其 20 TOPS 的强大性能和低功耗(5 TFLOPS/W),成为
    的头像 发表于 05-28 08:01 1014次阅读
    轻松上手<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>:MemryX MX3+结合Orange Pi 5 Plus的C/C++实战指南