0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低功耗下,高能效AI加速器如何设计?

新思科技 来源:新思科技 2023-10-26 09:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果在数据中心和边缘设备中部署上人工智能(AI)加速器,那么它们将能够快速处理PB级的数据量,还能帮助克服传统的冯·诺依曼瓶颈。在Chat GPT、高级驾驶辅助系统(ADAS)、摄像头和传感器等智能边缘设备中,我们都能看到AI加速器的身影。

半导体领域,实现出色的性能功耗比永远都是首要目标。AI加速器的能效比通用系统的能效通常会高出100倍甚至1000倍,但生成出色AI模型所需的算力资源每3.4个月就会翻一番。AI产生的能耗不容小觑,以GPT3为例,仅训练这一个深度学习模型所产生的二氧化碳就高达500吨,相当于一辆普通燃油车行驶100多万英里。

降低能耗不仅能够尽量减少对环境的影响,还能降低运营成本,并在有限的功耗预算内尽可能地提高性能,缓解热挑战。

本文将进一步讨论开发者们如何利用端到端功耗分析解决方案,打造新一代更高效节能的AI加速器。

为十亿门级以上设计优化功耗

AI加速器的端到端节能方法必须从设计流程的初始阶段开始,涵盖架构和微架构层面,并一直延续到签核阶段。因此,AI芯片开发者需要利用架构探索平台,对具体训练或推理应用的功耗、性能和面积(PPA)进行权衡分析和评估,并主动识别后续分析的关键矢量。

由于AI硬件通常包括多个由数千个处理单元组成的大型阵列,因此十亿门级以上设计需要进行多域软硬件功耗验证,尽可能降低能耗和漏电。然而,要想分析关键功耗模块和时间窗口,需要先进的硬件加速系统,以便运行数十亿个循环并快速精确地实现多次迭代。只有在完成这一步后,寄存器传输级(RTL)功耗分析和物理实现工具才能有效地优化动态(晶体管门开关)功耗和静态(漏电)功耗。

为了始终提供准确的结果,用于AI芯片设计的RTL功耗分析工具应具备以下功能:

时序驱动型快速综合:内部功耗计算错误通常是基于扇出的快速综合工具未能根据时序约束正确地确定单元大小。同后续的布局布线工具相同,RTL功耗分析工具中嵌入的快速综合功能必须由时序驱动。

物理感知型快速综合:RTL功耗分析工具应该具备“物理感知”能力,能够通过完成一次设计单元摆放以及全局布线就可以获得准确的连线电容值。与基于扇出的方法不同,基于物理感知的电容估算能够为每条连线提供唯一的准确值。

签核质量的功耗计算引擎:传统的RTL功耗分析工具使用word-level逻辑推理进行快速综合,这种方法只能采用启发式算法来计算毛刺功耗,因此并不准确。要准确计算毛刺功耗(可能高达芯片总功耗的40%)并减少高度重复的处理单元,RTL功耗分析工具必须具备签核质量功耗分析引擎、网表级设计表示并集成时序计算引擎。

在完成RTL功耗分析和优化后,便可使用物理实现(综合和布局布线)工具来进一步优化PPA。为确保可靠性、可扩展性以及良好的用户体验,这些实现工具应包含统一的集成式数据模型架构、交错式引擎和统一的命令界面。同样重要的是,实现工具应能对先进节点效应和毛刺功耗进行精确建模,从而加速工程变更命令(ECO)和最终设计收敛。

出色的能效与性能

新思科技提供全面的端到端功耗解决方案,帮助AI芯片开发者以经济高效的方式达成或超越充满挑战性的性能和能效目标,同时缩短产品上市时间。新思科技的Platform Architect用于设计流程的初始阶段,能够为AI芯片开发者提供SystemC事务级建模(TLM)工具和高效方法,帮助开发者快速地对复杂的芯片架构进行建模、分析和优化。新思科技ZeBu Empower是一款快速的功耗分析工具,用于AI芯片设计流程的下一阶段:基于数亿个循环来分析和调试软件实际工作负载下的能耗。

许多业内领先的半导体公司借助新思科技ZeBu Empower大幅降低了功耗,其中包括美国硅谷的AI芯片初创公司SiMa.ai,该公司致力于为智能边缘设计高性能、低能耗的AI芯片。具体而言,该公司的SiMa.ai低功耗MLSoC实现了每瓦特帧率(FPS)提升2.5倍的成果。在2023年硅谷SNUG大会上,SiMa.ai公司的芯片开发总监Sounil Biswas指出,流片后验证结果表明,新思科技ZeBu Empower给出的数据与电路板的测量结果之间具有出色的相关性。

为了补充ZeBu Empower并助力实现低功耗RTL设计,新思科技提供了PrimePower RTL,这是一款RTL功耗分析与优化工具,通过将时序驱动型综合、物理感知型综合与集成式计算引擎相结合,可以持续获得准确的结果(与布线后实现的结果相比误差在+/- 15%以内)。新思科技PrimePower RTL还提供分步指导,帮助AI芯片开发者进一步减少毛刺并降低总功耗。

新思科技的Fusion Compiler是一款综合的集成式RTL-to-GDSII实现系统,可帮助实现进一步的PPA优化。在这之后,可以使用新思科技的黄金功耗签核解决方案PrimePower对AI设计进行分析。新思科技的PrimePower通过了全球多家领先代工厂的认证,3nm工艺能够在签核时实现高精度,同SPICE的芯片测量的误差极小。

为边缘AI推理设计差异化芯片

AI加速器使许多热门应用能够在几毫秒内快速分析海量信息并准确推断结果。与此同时,实现出色的性能功耗比依然是芯片开发者的首要目标。这一点在边缘领域尤为明显,在该领域,为了缩小芯片尺寸并尽可能地降低功耗,性能通常会受到限制。

然而,这些限制也为半导体公司创造了新的机遇,让半导体公司可以通过精确校准PPA来满足低延迟、高带宽应用的特定要求,从而设计出差异化芯片。例如,自主导航应用要求计算响应延迟时间限制在20μs以内,而语音和视频助手则要求能够在10μs之内理解语音关键词,并在几百毫秒内理解手势含义。要想成功实现PPA权衡,芯片开发者应该采用整体性方法,利用端到端解决方案,从早期架构探索到最后的黄金功耗签核,持续优化功耗。








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    841

    浏览量

    40305
  • 晶体管
    +关注

    关注

    78

    文章

    10470

    浏览量

    148927
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267725
  • RTL
    RTL
    +关注

    关注

    1

    文章

    395

    浏览量

    62951
  • AI芯片
    +关注

    关注

    17

    文章

    2181

    浏览量

    36886

原文标题:边缘端也要跑大模型:低功耗下,高能效AI加速器如何设计?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Supermicro推出紧凑型高能系统:以边缘算力重构AI应用新范式

    近日,全球IT解决方案领导者Supermicro(超微)宣布推出基于**AMD EPYC™ 4005系列处理**的紧凑型高能系统,以“小体积、大算力、低功耗”的颠覆性设计,为零售、
    的头像 发表于 04-22 14:58 2271次阅读

    探索MAX78002:低功耗卷积神经网络加速器AI微控制

    探索MAX78002:低功耗卷积神经网络加速器AI微控制 在当今的科技领域,人工智能(AI)的发展日新月异,对计算能力的需求也与日俱增。
    的头像 发表于 03-27 17:10 207次阅读

    TI AM62L经典再进化!高能低功耗全新发布

    AM62x家族的降本之作,在性能和资源上做了裁剪,成本上做了优化,延续AM62x的经典基因,以更低门槛推进低功耗高能的工业处理普及,助力开发者以高效方案应对多样化的需求。 米尔与
    发表于 03-06 17:44

    新品!高能低功耗,TI AM62L经典再进化

    AM62x家族的降本之作,在性能和资源上做了裁剪,成本上做了优化,延续AM62x的经典基因,以更低门槛推进低功耗高能的工业处理普及,助力开发者以高效方案应对多样
    的头像 发表于 03-06 08:04 655次阅读
    新品!<b class='flag-5'>高能</b><b class='flag-5'>效</b>,<b class='flag-5'>低功耗</b>,TI AM62L经典再进化

    使用NORDIC AI的好处

    原始传感数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备上做推理,很多决策可以“本地实时”完成,
    发表于 01-31 23:16

    重磅合作!Quintauris 联手 SiFive,加速 RISC-V 在嵌入式与 AI 领域落地

    之后,要打造的是高可靠性、高能还支持可扩展的 RISC-V 设计方案。而且合作的核心目标特别明确: 让 RISC-V 处理在嵌入式、物联网、AI 系统里更快普及; 用集成式 IP
    发表于 12-18 12:01

    专为边缘而生:深度解析昆仑芯K100 AI加速卡,释放128 TOPS极致能

    昆仑芯K100边缘AI加速卡以75W超低功耗实现128 TOPS的INT8算力,重新定义边缘推理能标准。其半高半长设计搭载8GB HBM内存与256GB/s带宽,支持INT8至FP3
    的头像 发表于 12-14 11:12 3298次阅读
    专为边缘而生:深度解析昆仑芯K100 <b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡,释放128 TOPS极致能<b class='flag-5'>效</b>

    高能低功耗、小体积,炬芯科技发布全新CGM连续血糖监测方案

    及数字健康设备提供小体积、低功耗高能的解决方案 ,为医疗级连续血糖监测系统提供可靠的硬件基础。 随着数字医疗与生理数据监测需求不断发展,传统CGM设备在功耗、体积及无线传输性能上仍
    的头像 发表于 12-01 16:57 1026次阅读
    <b class='flag-5'>高能</b><b class='flag-5'>效</b>、<b class='flag-5'>低功耗</b>、小体积,炬芯科技发布全新CGM连续血糖监测方案

    边缘计算中的AI加速器类型与应用

    人工智能正在推动对更快速、更智能、更高效计算的需求。然而,随着每秒产生海量数据,将所有数据发送至云端处理已变得不切实际。这正是边缘计算中AI加速器变得不可或缺的原因。这种专用硬件能够直接在边缘设备上
    的头像 发表于 11-06 13:42 1129次阅读
    边缘计算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>类型与应用

    亚马逊云科技第三期创业加速器圆满收官 助力初创释放Agentic AI潜力 加速全球化进程

    北京——2025年10月28日 ,亚马逊云科技第三期创业加速器项目圆满收官。35家入营企业齐聚一堂,分享了各自的业务发展情况,以及参与本期加速器的收获及体验。第三期创业加速器持续聚焦AI
    的头像 发表于 10-29 15:18 1119次阅读

    航裕电源以大电流技术为国内外超导加速器项目提供优质方案

    级大电流解决方案,为国内外超导加速器项目提供优质方案,成为大科学装置建设的 “中国力量”。 什么是超导加速器?       超导加速器是利用超导材料特性,将质子、电子等带电粒子加速到极
    的头像 发表于 10-12 15:02 1848次阅读

    瑞萨电子RZ/V系列微处理助力边缘AI开发

    边缘AI越来越多地应用于诸如工业摄像头和公共设施摄像头等嵌入式设备中,并要求嵌入式产品小型化且具有低功耗。瑞萨电子RZ/V系列微处理(MPU)内置AI
    的头像 发表于 09-23 10:31 1191次阅读
    瑞萨电子RZ/V系列微处理<b class='flag-5'>器</b>助力边缘<b class='flag-5'>AI</b>开发

    Andes晶心科技推出新一代深度学习加速器

    高效能、低功耗 32/64 位 RISC-V 处理核与 AI 加速解决方案的领导供货商—Andes晶心科技(Andes Technology)今日正式发表最新深度学习
    的头像 发表于 08-20 17:43 3231次阅读

    粒子加速器 —— 科技前沿的核心装置

    粒子加速器全称“荷电粒子加速器”,是一种利用电磁场在高真空环境中对带电粒子(如电子、质子、离子)进行加速和控制,使其获得高能量的特种装置。粒子加速器
    的头像 发表于 06-19 12:05 4454次阅读
    粒子<b class='flag-5'>加速器</b> —— 科技前沿的核心装置

    Analog Devices / Maxim Integrated MAX78002人工智能微控制数据手册

    Analog Devices MAX78002人工智能微控制是支持神经网络的AI微控制。Analog Devices MAX78002可在超低功耗
    的头像 发表于 06-18 15:19 1057次阅读