应对端侧AI算力、内存、功耗“三堵墙”困境，安谋科技Arm China “周易”X3给出技术锦囊-电子发烧友网

AI大模型正加速从云端向边缘与端侧渗透，然而，算力、内存、功耗等却成了制约其规模化落地的“高墙”。专为AI计算而生的神经网络处理器（NPU），成为破墙关键。安谋科技Arm China“周易”X3 NPU IP，通过架构创新、软硬件协同优化与开放生态等，为应对端侧AI“算力墙”、“内存墙”、“功耗墙”困境给出技术锦囊。

锦囊一：应对“算力墙”，从“定点”到“浮点”，架构升级与算力灵活配置

端侧AI从CNN向Transformer迁移，对高精度浮点运算的需求激增。传统NPU受限于架构适配性差、算力调度效率低等，难以满足复杂AI场景的动态需求。为应对大模型对端侧算力的严苛需求，“周易”X3提供了高效的解决方案。

“周易”X3的破局之道在于底层架构革新，它采用专为大模型而生的DSP+DSA全新架构，实现从定点转向浮点计算，兼顾CNN与Transformer，解决了传统NPU“偏科”问题。单Cluster可提供8-80 FP8 TFLOPS的灵活算力配置，能精准匹配不同场景的多样化算力需求。相较上一代产品，“周易”X3实现性能升级——AIGC大模型能力提升10倍、CNN模型性能提升30%-50%，充分释放大模型算力潜能。

锦囊二：应对“内存墙”——高带宽与智能存储，提升内存利用效率

大模型参数规模庞大，内存带宽与存储压力是另一大瓶颈。若无法高效处理数据读写与存储，将导致AI任务卡顿与响应延迟。“周易”X3通过多重技术升级应对内存挑战：

超高速数据通道：单Core带宽高达256GB/s，能快速完成海量数据的读写，减少数据在内存中的滞留时间。计算核心带宽相较上一代提升4倍，可保障数据高效传输；

智能存储架构：升级的L2 Memory存储系统有效减少DDR访存，提升数据吞吐效率；

硬件解压引擎：集成自研解压硬件WDC，使大模型Weight软件无损压缩后通过硬件解压能额外获得约15%的等效带宽；

低精度加速模式：支持端侧大模型运行必备的W4A8/W4A16计算加速模式，兼顾存储容量、带宽与精度需求，在保证模型效果的前提下显著提升计算效率。

实测数据显示，多核算力线性度达70-80%、大模型Prefill阶段利用率可达72%、Decode阶段有效带宽利用率突破100%[1]，充分验证其内存调度能力与系统协同优化的卓越表现。

锦囊三：应对“功耗墙”：极简调度与按需供给，实现能效优化

终端设备在有限电池容量和散热条件下，亟需通过算力与能效的协同优化，实现高性能AI任务与长续航的平衡。

“周易”X3集成AI专属硬件引擎AIFF，搭配专用硬化调度器，能将CPU负载降至0.5%以下，且调度延迟极低。NPU在并行处理多项AI任务时，无需依赖CPU频繁介入调度，显著降低CPU与NPU间的通信开销，从而降低系统功耗、有效延长设备续航时间。

此外，“周易”X3采用可扩展的多核架构及层次化的内存互连架构，支持算力灵活裁剪和扩展，系统可根据AI任务复杂度实现“按需供能”，有效降低无效计算与数据搬移，实现能源利用效率最大化。

Compass AI软件平台助力全链路高效开发与部署

应对端侧AI“三堵墙”挑战，离不开软硬件的深度协同。“周易”X3配套的Compass AI软件平台凭借完善易用、开放生态、安全保障等多维优势，成为面对端侧AI“三堵墙”困境的超强“金牌辅助”。

“周易” NPU Compass AI软件平台

Compass AI软件平台提供端到端统一工具链，可实现“一键部署，开箱即用”。原生支持Hugging Face、主流AI框架与OS，支持160+算子与270+模型，并对LLM/VLM/VLA及MoE等大模型推理进行深度优化，实现从CNN到Transformer模型的无缝接入，大幅降低模型部署门槛与成本。同时，平台对量化算法的支持与具备的动态Shape能力，可在提升性能的同时有效降低功耗，避免无效计算。

此外，Compass AI软件平台提供多种软件工具，并开放IR规格、开源量化工具等核心组件。开发者基于DSL编程语言，通过丰富的NN编译器插件实现自定义算子，配合可视化调试工具，能够实现全链路可观测、可优化，极大提升不同场景下的开发效率，为端侧AI的算力调度、功耗控制提供底层软件支撑。

以自研IP产品矩阵助推端侧AI规模化落地

在安谋科技“AI Arm CHINA”战略指引下，公司将以AI为核心、Arm®生态为支撑、本土创新为根基，持续推进“周易”NPU、“星辰”CPU、“山海”SPU和“玲珑”多媒体处理器四大自研IP产品的研发，与产业伙伴协同共建中国智能计算生态，助推端侧AI的规模化落地。