0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

倪亚宇:面向端侧智能应用,国科微打造更高效的NPU与工具链

科技讯息 来源:科技讯息 作者:科技讯息 2026-04-03 10:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4月1日,在2026中国IC领袖峰会“边缘AI与算力芯片”垂直技术论坛上,国科微AI算法部部长倪亚宇发表题为《FlashAttention-4:新一代大模型推理NPU流水线范式设计》的主题演讲。

wKgZPGnPJJaANhzSAAPFs7tf1RE06.jpeg

随着大模型加速走向产业落地,推理效率、内存带宽与系统功耗成为端侧部署的关键瓶颈。尤其在Transformer与大型语言模型持续演进的背景下,注意力机制(Attention)的高效实现,已成为芯片架构与工具链优化的重要突破口。

倪亚宇表示,国科微正聚焦FlashAttention等前沿技术在NPU平台上的落地探索,推动构建更适合端侧量产部署的NPU架构与工具链,为自动驾驶、边缘计算、智能终端及AIGC等场景提供高效能算力支撑。

NPU部署“满血版”FlashAttention仍面临挑战

作为大模型中的核心计算结构之一,注意力机制在实际运行中普遍面临访存开销高、流水线效率受限等问题。FlashAttention的提出,为解决这一问题提供了新的路径。

FlashAttention是由斯坦福大学Tri Dao等人于2022年提出的一种快速且内存高效的精确注意力算法。它通过对注意力计算过程进行等价重构,通过分块计算、在线Softmax、重计算与异步流水等方式,将中间计算过程保留在片上缓存中,减少外部存储访问带宽压力,显著提升推理效率。

在刚刚过去的3月中旬,FlashAttention 4.0版本正式发布。倪亚宇指出,FlashAttention从1.0演进至4.0,在并行性、长序列支持、低精度计算及异步执行等方面持续增强。但相较GPU,当前NPU在向量单元算力、异步流水排布、动态调度及超长上下文等能力上仍存差距。倪亚宇指出,要实现“满血版”FlashAttention,需围绕计算流水线、数据复用与系统带宽进行协同设计。

wKgZO2nPJJeAC-ynAARFnfW13jQ55.jpeg

国科微NPU 4.0:构建更高效的推理单元

自2020年起,国科微持续投入NPU自主研发,形成从GKNPU 1.0到4.0的演进路线,产品能力向更高算力、更广模型覆盖与更优能效比升级。目前,国科微AI视觉与车载AI系列芯片已搭载3.0版本NPU,支持0.5T至8T算力,支持视觉、音频、时序等AI模型在端侧芯片应用落地。

在GKNPU 4.0架构设计中,国科微提出面向高效注意力计算的增强型脉动阵列架构,针对性扩展矩阵和向量计算能力,强化对大模型注意力机制中的关键操作的支持,压缩数据搬运路径与流水线开销,增强片上闭环计算能力。该设计旨在减少对外部带宽的依赖,提升推理链路执行效率,有效应对大模型推理中的带宽瓶颈、激活值碎片化及超长上下文的内存压力。

强化工具链,推动高效规模化部署

在NPU架构演进的同时,国科微持续强化工具链能力。新一代GKToolchain 3.0面向端侧异构算力场景,重点提升硬件感知编译、自动分块、自动向量化、异步数据读写与计算流水编排能力,推动模型部署从“可适配”迈向“高效率、可规模化”。

同时,工具链围绕动态内存管理、投机推理加速等前沿方向持续演进,增强对长上下文管理及复杂推理流程的支撑能力,助力客户高效完成从模型到芯片的部署闭环。

随着AI应用从训练侧走向推理侧、从云端走向终端,产业对算力平台的要求正从“高峰值性能”转向“高能效、可量产、易部署”的综合能力。NPU在端侧规模化落地中具备显著的成本与功耗优势。

倪亚宇表示,国科微将持续坚持算法与硬件协同创新,围绕大模型推理核心瓶颈,不断完善NPU架构、产品能力与工具链体系,推动端侧智能计算平台向更高性能、更低功耗、更强工程可落地方向演进,为客户提供更具竞争力的算力方案。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4800

    浏览量

    98508
  • AI
    AI
    +关注

    关注

    91

    文章

    40941

    浏览量

    302523
  • NPU
    NPU
    +关注

    关注

    2

    文章

    385

    浏览量

    21339
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    子公司荣获“2026中IC设计成就奖”

    3月31日,2026中IC领袖峰会暨中国IC设计成就奖颁奖典礼在上海举行。旗下全资子公司——杭州
    的头像 发表于 04-02 16:52 973次阅读
    <b class='flag-5'>国</b><b class='flag-5'>科</b><b class='flag-5'>微</b>子公司荣获“2026中<b class='flag-5'>国</b>IC设计成就奖”

    slkor持续推进企业数字化升级,将产品数据成功导入创工业基础资源库及supply frame旗下Datasheet5平台

    slkor持续推进企业数字化升级,将产品数据成功导入创工业基础资源库及supply frame旗下Datasheet5平台,以及加入该平台的“芯耀计划”,实现了技术数据与产业
    发表于 03-18 10:55

    芯科技AI MCU芯片CCR4001S出货量突破10万颗

    近期,芯科技边缘/ AI MCU CCR4001S以10万颗交货的新里程碑,助力客户在智能时代开启新的动态节能征程!
    的头像 发表于 02-09 16:02 1756次阅读
    <b class='flag-5'>国</b>芯科技<b class='flag-5'>端</b><b class='flag-5'>侧</b>AI MCU芯片CCR4001S出货量突破10万颗

    【新品发布】艾为重磅发布AI高性能NPU语音芯片,打造智能语音体验新标杆

    数模龙头艾为电子全新推出高性能NPU神经网络智能语音处理芯片:AWA89601,集成音频专用NPU(神经网络处理器),通过声音模型训练与NPU硬件结合,该芯片在AI降噪、AI人声增强、
    的头像 发表于 01-07 18:33 510次阅读
    【新品发布】艾为重磅发布<b class='flag-5'>端</b><b class='flag-5'>侧</b>AI高性能<b class='flag-5'>NPU</b>语音芯片,<b class='flag-5'>打造</b><b class='flag-5'>智能</b>语音体验新标杆

    安谋科技:NPU技术创新,拉动AI算力落地引擎

    X3 NPU IP以及生态建设、NPU发展趋势等话题。   图:安谋科技产品总监鲍敏祺   周易X3 NPU IP正当时   安谋科技周易X3 NPU IP
    的头像 发表于 12-09 16:44 6099次阅读
    安谋科技:<b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>NPU</b>技术创新,拉动AI算力落地引擎

    芯原与谷歌联合推出开源Coral NPU IP

    芯原股份近日宣布与谷歌联合推出面向始终在线、超低能耗大语言模型应用的Coral NPU IP。
    的头像 发表于 11-13 11:24 1233次阅读
    芯原与谷歌联合推出开源Coral <b class='flag-5'>NPU</b> IP

    力合PLC获朵集团选用,打造新一代互联互通酒店智能客控

    近期,朵集团正式发布智能客控招标公告,明确要各厂家客控方案“基于力合PLC客控模组的定制通讯协议方案”,覆盖朵、朵S、萨和等全系列酒
    的头像 发表于 11-01 07:03 1229次阅读
    力合<b class='flag-5'>微</b>PLC获<b class='flag-5'>亚</b>朵集团选用,<b class='flag-5'>打造</b>新一代互联互通酒店<b class='flag-5'>智能</b>客控

    精彩亮相CPSE安博会2025,以视觉AI洞见未来

    通过此次CPSE安博会,不仅系统展示了从视觉AI到计算的完整产品布局,更凸显了以“圆鸮”AI ISP与自研
    的头像 发表于 10-30 15:09 1116次阅读
    <b class='flag-5'>国</b><b class='flag-5'>科</b><b class='flag-5'>微</b>精彩亮相CPSE安博会2025,以视觉AI洞见未来

    AI体验跃迁,天玑9500用双NPU开创AI新时代

    AI 正从“尝鲜”迈向“常用”,下一代体验该由谁定义?联发天玑9500给出答案:行业首发将 AI 4K 文生图带到手机,引领移动影像与创造力的范式跃迁。 全新“超性能 + 超能效”双 N
    的头像 发表于 09-24 14:47 887次阅读
    AI体验跃迁,天玑9500用双<b class='flag-5'>NPU</b>开创<b class='flag-5'>端</b><b class='flag-5'>侧</b>AI新时代

    基于米尔瑞芯RK3576开发板的Qwen2-VL-3B模型NPU多模态部署评测

    关键词:瑞芯 RK3576、NPU(神经网络处理器)、小语言模型(SLM)、多模态 LLM、边缘 AI 部署、开发板、RKLLM随着大语言模型(LLM)技术的快速迭代,从云端集
    发表于 08-29 18:08

    AI推理赋能效率革命,美格智能多领域落地打造行业范本

    产业进阶:AI推理助手成为应用刚需作为人工智能技术最普遍的产品形式之一,“AI助手”已成为各类软件、终端的重要组成部分,成为AIAgent的主要外在呈现和功能入口。随着
    的头像 发表于 08-25 17:06 4124次阅读
    <b class='flag-5'>端</b><b class='flag-5'>侧</b>AI推理赋能效率革命,美格<b class='flag-5'>智能</b>多领域落地<b class='flag-5'>打造</b>行业范本

    两款智能开关产品通过AEC-Q100车规认证

    两款产品——智能开关RM77100DD与MOS预驱RM7515KSF,成功通过AEC-Q100车规认证。截至目前,
    的头像 发表于 07-04 16:58 1429次阅读
    <b class='flag-5'>亚</b>成<b class='flag-5'>微</b>两款<b class='flag-5'>智能</b>高<b class='flag-5'>侧</b>开关产品通过AEC-Q100车规认证

    华邦电子创新存储赋能智能

    华邦电子于 4 月 15 日、4 月 25 日受邀参加新唐科技 2025 新品发布会,期间进行了题为“创新存储赋能智能”的主旨演讲,展示了华邦电子在
    的头像 发表于 05-14 09:59 1756次阅读
    华邦电子创新存储赋能<b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>智能</b><b class='flag-5'>端</b><b class='flag-5'>侧</b>

    后摩智能NPU适配通义千问Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列开源混合推理模型。用时不到1天,后摩智能自研NPU迅速实现Qwen3 系列模型(Qwen3 0.6B-14B)在
    的头像 发表于 05-07 16:46 1535次阅读

    苹芯科技 N300 存算一体 NPU,开启 AI 新征程

    随着人工智能技术的爆发式增长,智能设备对本地算力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约
    的头像 发表于 05-06 17:01 1296次阅读
    苹芯科技 N300 存算一体 <b class='flag-5'>NPU</b>,开启<b class='flag-5'>端</b><b class='flag-5'>侧</b> AI 新征程