0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

应对端侧AI算力、内存、功耗“三堵墙”困境,安谋科技Arm China “周易”X3给出技术锦囊

21克888 来源:电子发烧友网 作者:综合报道 2025-12-18 13:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI大模型正加速从云端向边缘与端侧渗透,然而,算力、内存、功耗等却成了制约其规模化落地的“高墙”。专为AI计算而生的神经网络处理器(NPU),成为破墙关键。安谋科技Arm China“周易”X3 NPU IP,通过架构创新、软硬件协同优化与开放生态等,为应对端侧AI“算力墙”、“内存墙”、“功耗墙”困境给出技术锦囊。



锦囊一:应对“算力墙”,从“定点”到“浮点”,架构升级与算力灵活配置

端侧AI从CNN向Transformer迁移,对高精度浮点运算的需求激增。传统NPU受限于架构适配性差、算力调度效率低等,难以满足复杂AI场景的动态需求。为应对大模型对端侧算力的严苛需求,“周易”X3提供了高效的解决方案。

“周易”X3的破局之道在于底层架构革新,它采用专为大模型而生的DSP+DSA全新架构,实现从定点转向浮点计算,兼顾CNN与Transformer,解决了传统NPU“偏科”问题。单Cluster可提供8-80 FP8 TFLOPS的灵活算力配置,能精准匹配不同场景的多样化算力需求。相较上一代产品,“周易”X3实现性能升级——AIGC大模型能力提升10倍、CNN模型性能提升30%-50%,充分释放大模型算力潜能。

锦囊二:应对“内存墙”——高带宽与智能存储,提升内存利用效率

大模型参数规模庞大,内存带宽与存储压力是另一大瓶颈。若无法高效处理数据读写与存储,将导致AI任务卡顿与响应延迟。“周易”X3通过多重技术升级应对内存挑战:

超高速数据通道:单Core带宽高达256GB/s,能快速完成海量数据的读写,减少数据在内存中的滞留时间。计算核心带宽相较上一代提升4倍,可保障数据高效传输;

智能存储架构:升级的L2 Memory存储系统有效减少DDR访存,提升数据吞吐效率;

硬件解压引擎:集成自研解压硬件WDC,使大模型Weight软件无损压缩后通过硬件解压能额外获得约15%的等效带宽;

低精度加速模式:支持端侧大模型运行必备的W4A8/W4A16计算加速模式,兼顾存储容量、带宽与精度需求,在保证模型效果的前提下显著提升计算效率。

实测数据显示,多核算力线性度达70-80%、大模型Prefill阶段利用率可达72%、Decode阶段有效带宽利用率突破100%[1],充分验证其内存调度能力与系统协同优化的卓越表现。

锦囊三:应对“功耗墙”:极简调度与按需供给,实现能效优化

终端设备在有限电池容量和散热条件下,亟需通过算力与能效的协同优化,实现高性能AI任务与长续航的平衡。

“周易”X3集成AI专属硬件引擎AIFF,搭配专用硬化调度器,能将CPU负载降至0.5%以下,且调度延迟极低。NPU在并行处理多项AI任务时,无需依赖CPU频繁介入调度,显著降低CPU与NPU间的通信开销,从而降低系统功耗、有效延长设备续航时间。

此外,“周易”X3采用可扩展的多核架构及层次化的内存互连架构,支持算力灵活裁剪和扩展,系统可根据AI任务复杂度实现“按需供能”,有效降低无效计算与数据搬移,实现能源利用效率最大化。

Compass AI软件平台 助力全链路高效开发与部署

应对端侧AI“三堵墙”挑战,离不开软硬件的深度协同。“周易”X3配套的Compass AI软件平台凭借完善易用、开放生态、安全保障等多维优势,成为面对端侧AI“三堵墙”困境的超强“金牌辅助”。

“周易” NPU Compass AI软件平台


Compass AI软件平台提供端到端统一工具链,可实现“一键部署,开箱即用”。原生支持Hugging Face、主流AI框架与OS,支持160+算子与270+模型,并对LLM/VLM/VLA及MoE等大模型推理进行深度优化,实现从CNN到Transformer模型的无缝接入,大幅降低模型部署门槛与成本。同时,平台对量化算法的支持与具备的动态Shape能力,可在提升性能的同时有效降低功耗,避免无效计算。

此外,Compass AI软件平台提供多种软件工具,并开放IR规格、开源量化工具等核心组件。开发者基于DSL编程语言,通过丰富的NN编译器插件实现自定义算子,配合可视化调试工具,能够实现全链路可观测、可优化,极大提升不同场景下的开发效率,为端侧AI的算力调度、功耗控制提供底层软件支撑。

以自研IP产品矩阵 助推端侧AI规模化落地

在安谋科技“AI Arm CHINA”战略指引下,公司将以AI为核心、Arm®生态为支撑、本土创新为根基,持续推进“周易”NPU、“星辰”CPU、“山海”SPU和“玲珑”多媒体处理器四大自研IP产品的研发,与产业伙伴协同共建中国智能计算生态,助推端侧AI的规模化落地。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI卡壳“堵墙”?破局突围,也许只差一个时频同步方案!

    作为数字经济的新“石油",AI正迎来指数级增长,但墙、存储墙、通信墙“堵墙"与逆摩尔定
    的头像 发表于 04-28 14:21 2535次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>卡壳“<b class='flag-5'>三</b><b class='flag-5'>堵墙</b>”?破局突围,也许只差一个时频同步方案!

    5W功耗实现25TOPS,LM2-100-V0模组破解AI防核心难题

    在智慧防边缘AI应用快速部署需求的背景下,设备制造商常面临终端设备不足、功耗超标、体积受限、部署太慢等
    的头像 发表于 04-03 11:34 422次阅读
    5W<b class='flag-5'>功耗</b>实现25TOPS<b class='flag-5'>算</b><b class='flag-5'>力</b>,LM2-100-V0<b class='flag-5'>算</b><b class='flag-5'>力</b>模组破解<b class='flag-5'>AI</b><b class='flag-5'>安</b>防核心难题

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    内存革命:48GB/96GB LPDDR4X 背后的带宽博弈 很多开发者容易陷入唯论的误区,但在实际部署大模型时,内存容量和带宽往往是
    发表于 03-10 14:19

    科技:NPU技术创新,拉动AI落地引擎

    X3 NPU IP以及生态建设、NPU发展趋势等话题。   图:科技产品总监鲍敏祺   周易X3 NPU IP正当时  
    的头像 发表于 12-09 16:44 6123次阅读
    <b class='flag-5'>安</b><b class='flag-5'>谋</b>科技:<b class='flag-5'>端</b><b class='flag-5'>侧</b>NPU<b class='flag-5'>技术</b>创新,拉动<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>落地引擎

    科技“AI Arm CHINA”战略,链接全球生态与本土创新

    的如医疗领域,新癌症药物研发速度较以往提升数十倍。”在11月20日ICCAD-Expo 2025上,科技Arm China CEO 陈锋在演讲中如是说。   当前中国
    的头像 发表于 12-03 10:24 6487次阅读

    架构//软件/应用全面突破,科技Arm China用“周易X3破局端AI

    高达39.6%。然而,当大模型从云端向渗透,瓶颈、能效矛盾、开发门槛成为制约
    的头像 发表于 11-21 08:52 7979次阅读
    架构/<b class='flag-5'>算</b><b class='flag-5'>力</b>/软件/应用全面突破,<b class='flag-5'>安</b><b class='flag-5'>谋</b>科技<b class='flag-5'>Arm</b> <b class='flag-5'>China</b>用“<b class='flag-5'>周易</b>”<b class='flag-5'>X3</b>破局端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>

    发布“周易X3 NPU,破局AI,智绘未来蓝图

    2025年11月13日,国内领先的芯片IP设计与服务提供商科技Arm China,正式揭开了新一代NPU IP“周易
    的头像 发表于 11-17 11:47 431次阅读
    <b class='flag-5'>安</b><b class='flag-5'>谋</b>发布“<b class='flag-5'>周易</b>”<b class='flag-5'>X3</b> NPU,破局<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>,智绘未来蓝图

    矢量计算性能提升200%,STAR-MC3赋能AI革命

    日益增长,推动芯片设计向更高能效、更强AI的方向演进。   就在近期,芯片IP设计与服务提供商科技(
    的头像 发表于 10-27 09:11 2769次阅读

    AI+MCU新选择,科技“星辰”STAR-MC3问世

    日前,科技Arm China发布“星辰”STAR-MC3 CPU IP解析长图,清晰展现了该产品的五大亮点、核心应用领域与“星辰”CPU
    的头像 发表于 10-23 16:01 421次阅读
    <b class='flag-5'>AI</b>+MCU新选择,<b class='flag-5'>安</b><b class='flag-5'>谋</b>科技“星辰”STAR-MC<b class='flag-5'>3</b>问世

    科技发布“星辰”STAR-MC3,提升MCU AI处理能力

    电子发烧友网综合报道 2025年9月25日,科技正式推出自主研发的第代高能效嵌入式芯片IP——“星辰”STAR-MC3。该产品基于Arm
    的头像 发表于 09-29 08:53 1.1w次阅读
    <b class='flag-5'>安</b><b class='flag-5'>谋</b>科技发布“星辰”STAR-MC<b class='flag-5'>3</b>,提升MCU <b class='flag-5'>AI</b>处理能力

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断
    的头像 发表于 09-19 15:26 2111次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断
    的头像 发表于 09-19 15:25 1039次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    2025AI芯片爆发:存一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端AI芯片密集发布,彻底打破传统困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    AI需求大爆发!科技发布新一代NPU IP,赋能AI终端应用

    ,汽车自动驾驶的本地决策,都依赖提升,这对AI SoC的性能带来挑战,上游IP厂商的新品可以给SoC厂商带来最新助力。 7月9日,在
    的头像 发表于 07-11 01:16 9081次阅读
    <b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>AI</b>需求大爆发!<b class='flag-5'>安</b><b class='flag-5'>谋</b>科技发布新一代NPU IP,赋能<b class='flag-5'>AI</b>终端应用

    苹芯科技 N300 存一体 NPU,开启 AI 新征程

    随着人工智能技术的爆发式增长,智能设备对本地与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“
    的头像 发表于 05-06 17:01 1337次阅读
    苹芯科技 N300 存<b class='flag-5'>算</b>一体 NPU,开启<b class='flag-5'>端</b><b class='flag-5'>侧</b> <b class='flag-5'>AI</b> 新征程