0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

后摩智能4篇论文入选人工智能顶会ICLR 2026

后摩智能 来源:后摩智能 2026-02-09 14:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

继斩获NeurIPS、ICCV、AAAIACMMM四大顶会认可后,后摩智能再传捷报——4篇论文成功入选国际顶级人工智能会议ICLR 2026(International Conference on Learning Representations),聚焦大模型低秩压缩、非线性算子高效近似、矢量量化以及MOE专项量化等端侧部署关键技术,提出多项创新性解决方案,进一步夯实后摩智能在端侧AI芯片与算法融合领域的技术壁垒,助力大模型在资源受限设备上实现高精度、高效率落地。

01【ICLR-2026】NLI:非均匀线性插值LUT

后摩智能芯片算法团队和东南大学联合提出非均匀线性插值方法NLI(Non-Uniform Interpolation LUT),并设计配套的NLI Engine硬件模块,攻克了大语言模型中非线性算子(如EXP、Rsqrt)在端侧部署时“精度与效率不可兼得”的难题,通过动态规划优化插值节点布局,实现非线性函数的高效近似,大幅降低硬件资源开销,适配各类端侧NPU平台。相关研究成果已应用于后摩智能端侧AI芯片的非线性计算单元设计。

非线性算子是LLMs推理过程中的核心组件,直接影响模型精度,但这类算子计算复杂,在端侧资源受限设备上难以高效部署。现有解决方案主要分为两类:一是基于神经网络的LUT拟合(如NN-LUT),但泛化能力差,易出现精度骤降;二是均匀插值LUT方法,无法适配非线性函数的曲率差异,高曲率区域误差过大,且硬件实现需大量比较器,资源开销高。这些问题严重制约了LLMs在端侧的实时推理性能。

NLI以“数据无关、全局最优、硬件友好”为核心目标,通过两大核心创新实现突破,同时配套硬件模块优化,形成“算法-硬件”协同解决方案:

核心创新一:动态规划非均匀节点布局(DP-based Non-Uniform Cutpoint Placement)。将插值节点(cutpoints)选择问题转化为动态规划问题,在固定节点预算下,基于FP16数值范围的曲率特征,全局优化节点分布,在高曲率区域密集布局节点,低曲率区域精简节点,既保证近似精度,又减少节点数量,避免资源浪费;同时无需数据校准,适配各类非线性算子,泛化能力极强。

核心创新二:两级地址翻译计算策略(Two-Level Address Translation)。设计“宏区间-微区间”两级布局,将全局节点划分为10个宏区间,中间8个宏区间再细分为32个微区间,仅需10个比较器即可完成地址定位,相比传统均匀插值方法(需259个比较器),大幅降低硬件开销;同时预计算插值系数,通过简单乘加运算完成线性插值,兼顾效率与精度。

核心创新三:NLI Engine硬件模块。NLI Engine采用四级流水线设计,适配1GHz时钟频率,集成LUT存储、两级地址翻译、线性插值计算等功能,可直接作为 plug-and-play 模块集成到端侧NPU中。实验表明,NLI在各项指标上全面超越现有SOTA方法:

软件层面:在LLaMA3、Qwen2.5等系列大模型上,替换非线性算子后,零样本精度、困惑度(PPL)与FP32浮点模型基本一致,最坏-case误差低于1.2×10⁻³,超越NN-LUT等方法;硬件层面:NLI Engine相比NN-LUT、RI-LUT硬件模块,面积分别节省68%、69%,功耗降低26%、29%,效率提升4.02×、4.29×,且吞吐量保持1GHz,完美适配端侧资源受限场景,为LLMs端侧实时推理提供核心计算支撑。

文章链接:https://arxiv.org/abs/2602.02988

02【ICLR-2026】SAES-SVD:自适应误差抑制SVD

后摩智能芯片算法团队提出自适应误差抑制低秩压缩框架SAES-SVD(Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression),创新性地将累积误差补偿与自适应权重优化融入SVD低秩分解,攻克了传统低秩压缩方法中“层间误差累积、精度持续下降”的核心痛点,无需微调或混合秩策略,即可实现大模型高效压缩与高精度保留,为端侧大模型的参数压缩部署提供全新解决方案。

低秩压缩(基于SVD)是大模型端侧部署的关键技术之一,具有硬件无关、兼容性强的优势,已被广泛应用于LLMs压缩。但现有SVD-based方法(如ASVD、SVD-LLM)均采用“逐层独立优化”策略,仅关注单一层级的重构误差最小化,忽视了压缩误差的层间传播与累积——上游层的微小重构误差,会随着网络深度增加不断放大,导致下游层输入分布偏移,最终使模型输出与浮点基线偏差显著,难以满足端侧部署的精度要求。

SAES-SVD通过两大核心模块协同工作,实现“局部误差抑制+全局误差补偿”,彻底解决误差累积问题:

核心模块一:累积误差感知层压缩(CEALC)。打破逐层独立优化的局限,将压缩目标定义为“局部重构误差+累积误差补偿”的加权组合,不仅最小化当前层的输出重构误差,还通过对齐当前层与浮点模型的输出,补偿上游层传播的累积误差;基于二阶激活统计量(输入协方差、差分协方差)推导闭解,无需存储海量原始激活数据,大幅降低内存开销,同时保证优化效率。

核心模块二:自适应协同误差抑制(ACES)。针对不同层对累积误差的敏感度差异,引入自适应加权系数,通过最大化低秩子空间的能量保留率(RER),动态调整累积误差补偿的强度——对高敏感度层增强补偿,对低敏感度层精简资源,确保在固定秩预算下,保留模型关键信息,提升压缩效率,避免过度补偿导致的资源浪费。

实验表明,SAES-SVD在各类LLMs上表现优异,优势显著:在LLaMA-3-8B模型上,压缩比为0.2时,相比传统SVD-LLM,输出与浮点模型的余弦相似度从0.79提升至0.95以上,有效抑制误差累积;在LLaMA-7B模型上,0.2压缩比下,零样本精度下降仅0.02,远低于现有方法。无需任何微调或混合秩策略,即可实现“高压缩比、高精度、低开销”,为端侧大模型低秩压缩提供全新范式。

文章链接:https://arxiv.org/abs/2602.03051

03【ICLR-2026】KBVQ-MoE:面向MoE大模型的KLT引导SVD与偏置校正矢量量化方法

后摩智能芯片算法团队提出面向混合专家(MoE)大语言模型的矢量量化框架KBVQ-MoE(KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs),创新性地融合KLT变换、SVD低秩分解与偏置校正技术,专门解决MoE架构量化中“专家间冗余浪费码本、量化误差累积导致分布偏移”的核心痛点,实现MoE大模型超低比特量化下的高精度保留与高效部署,填补了现有MoE量化方法缺乏输入驱动协同优化机制的空白,相关成果可直接适配端侧资源受限设备的MoE大模型部署需求。

MoE大模型凭借“专家分工、稀疏激活”的特性,在参数规模与推理效率间实现平衡,成为端侧部署的重要选择,但现有MoE量化方法存在明显局限:多数方法未整合输入激活的统计特征,既无法充分利用专家间共享的输入相关共性模式,也未能针对性校正专家量化误差导致的分布偏移,在高压缩比场景下难以平衡模型精度与部署效率,无法适配端侧设备的存储与计算约束。

KBVQ-MoE以“输入驱动去冗余、偏置校正稳输出”为核心,构建两大关键模块协同工作的完整框架,形成“预处理-量化-后处理”的全流程优化方案,同时兼顾算法创新性与端侧硬件适配性:

核心模块一:输入驱动冗余消除(IDRE)。基于输入激活的统计特征,通过KLT变换构建输入相干空间,将所有专家的权重矩阵投影至该空间,实现权重结构与输入特征的精准对齐;随后通过SVD分解提取专家间的共享主导分量并保留全精度,仅对专家专属的非冗余分量进行量化,大幅降低冗余信息对码本的占用,提升量化效率。该模块通过三步实现冗余消除:一是对输入激活进行KLT分解,构建基于输入能量排序的正交相干基;二是将专家权重投影至该相干空间,建立权重与输入特征的直接关联;三是通过SVD分解分离共享分量与专家专属分量,共享分量全精度保留,专属分量用于后续量化。

核心模块二:偏置校正输出稳定(BCOS)。针对专家专属分量量化后产生的累积偏置,设计通道级仿射补偿机制,通过对齐量化输出与全精度输出的均值和方差,抑制量化误差导致的分布偏移,确保模型输出稳定性。具体而言,先对专家专属分量进行矢量量化,再引入通道级缩放因子与偏置项,基于最小均方误差(MMSE)准则优化参数,仅增加少量额外参数(每一层2倍输出通道数),即可实现低开销的偏置校正,避免误差在专家聚合过程中被放大。

实验表明,KBVQ-MoE在主流MoE大模型上表现远超现有SOTA方法,适配端侧超低比特部署场景:在Qwen3-30B-A3B、Mixtral-8x7B等模型上,2-3bit量化时,零样本平均精度接近FP16全精度,其中Mixtral-8x7B在3bit量化下,WikiText2数据集上的困惑度(PPL)低至4.07,与全精度模型仅相差0.19;相比GPTQ、MoEQuant等现有方法,KBVQ-MoE在2bit量化时,Qwen3-30B-A3B的平均精度提升10个百分点以上,困惑度降低近6个点。同时,该框架可作为通用插件,与现有矢量量化方法(如GPTVQ、VPTQ)集成,进一步提升其性能,在Qwen1.5-MoE-A2.7B模型上,与GPTVQ集成后3bit量化的困惑度提升近30%。

在端侧部署适配性上,KBVQ-MoE无需修改MoE模型的专家结构与路由机制,量化后模型推理速度较全精度模型提升1.5-1.6倍,仅增加可忽略的计算与存储开销,完美适配后摩智能端侧AI芯片架构,可广泛应用于车载、嵌入式、边缘设备等资源受限场景,为MoE大模型的端侧规模化部署提供核心技术支撑。

文章链接:https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf

04【ICLR-2026】PCDVQ:基于极性聚类的矢量量化

后摩智能芯片算法团队提出极性聚类矢量量化框架PCDVQ(Polar Clustering Vector Quantization),创新性地将极性聚类与矢量量化深度结合,攻克了大语言模型(LLMs)超低比特量化中码本利用率低、精度损失显著的核心痛点,为LLMs在边缘设备、嵌入式终端的极致压缩部署提供了高效解决方案。

随着LLMs参数规模持续扩大,超低比特(2-bit及以下)量化成为实现端侧部署的关键手段,但传统矢量量化方法存在两大核心瓶颈:一是码本学习过程中易出现“码本崩溃”,部分码本长期闲置,导致量化精度下降;二是忽视权重极性特征,将正负权重混合量化,加剧误差累积,难以在超低比特场景下保留模型性能。现有方法虽尝试通过复杂码本初始化缓解问题,但仍无法兼顾量化效率与精度,难以适配端侧设备的资源约束。

PCDVQ以极性聚类为核心创新点,构建“极性分离-聚类优化-协同量化”的三级框架,通过三大核心设计实现突破:

核心设计一:极性分离编码(Polar Separation Encoding)。首次将权重矢量按极性划分为正、负两个独立子集,分别进行量化处理,避免正负权重混合量化带来的误差干扰,同时保留权重的极性特征,减少对模型损失函数的影响,为高精度量化奠定基础。

核心设计二:动态极性聚类(Dynamic Polar Clustering)。基于K-means聚类算法优化码本生成,针对正负权重子集分别学习专属码本,通过动态调整聚类中心,提升码本利用率,缓解“码本崩溃”问题;同时结合率失真理论,在有限比特预算下实现量化误差最小化。

核心设计三:跨极性协同优化(Cross-Polar Cooperative Optimization)。引入协同正则化项,联合优化正负权重的量化参数,确保量化后模型的权重分布与浮点模型保持一致,减少极性分离带来的性能波动,进一步提升量化精度。

实验表明,PCDVQ在主流LLMs上表现卓越,全面超越当前SOTA方法:在LLaMA-3-70B模型上,2.25-bit量化时,零样本平均精度达71.98%,接近FP16浮点精度;在LLaMA-3-8B模型上,2.25-bit量化的零样本平均精度较VPTQ提升1.23%;在Mistral-7B模型上,2-bit量化时的QA平均精度达64.33%,显著优于GPTQ、AQLM等现有方法,真正实现“超低比特、高精度、高效率”的量化目标,为端侧大模型部署提供核心技术支撑。

文章链接:https://arxiv.org/abs/2506.05432

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50314

    浏览量

    266868
  • 后摩智能
    +关注

    关注

    0

    文章

    56

    浏览量

    1751
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269

原文标题:后摩前沿丨后摩智能4篇论文入选人工智能顶会ICLR 2026,持续突破大模型端侧部署核心技术瓶颈

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华工科技子公司入选2026年湖北省人工智能典型应用场景

    4月16日,2026湖北人工智能产业发展生态大会暨“AI+制造”政策宣贯活动在武汉成功举办,会上正式公布了2026年湖北省第一批人工智能典型
    的头像 发表于 04-21 16:17 174次阅读

    烽火通信AI大模型项目入选2026年湖北省人工智能典型应用场景

      近日,湖北省经济和信息化厅公示《2026年湖北省人工智能典型应用场景》认定名单,烽火通信旗下武汉烽火信息集成技术有限公司“基于AI大模型的先进制造业跨场景应用”项目,凭借成熟的落地能力、显著的提质增效成果与全行业可复制的推广价值成功
    的头像 发表于 04-15 16:23 198次阅读

    奕行智能论文入选国际计算机体系结构顶级会议 ISCA 2026

    近日,奕行智能宣布其论文《Dynamic Scheduling for AI Accelerators via TISA》(基于 Tile 级虚拟指令集实现 AI 加速器的动态调度)正式入选
    的头像 发表于 04-01 15:24 331次阅读
    奕行<b class='flag-5'>智能</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b>国际计算机体系结构顶级会议 ISCA <b class='flag-5'>2026</b>

    智能全国总部正式落地北京经开区

    3月17日,北京智能科技有限公司全国总部在北京经济技术开发区国家信创园正式启用。这标志着智能
    的头像 发表于 03-19 10:22 488次阅读

    地平线11论文强势入选CVPR 2026

    论文收录结果。地平线凭借深厚的技术积淀与前瞻的科研布局,共有11论文成功入选,覆盖端到端自动驾驶、3D重建、世界模型、具身智能等多个核心领
    的头像 发表于 03-18 15:18 803次阅读
    地平线11<b class='flag-5'>篇</b><b class='flag-5'>论文</b>强势<b class='flag-5'>入选</b>CVPR <b class='flag-5'>2026</b>

    西井科技携手同济大学 三AI研究成果入选ICLR 2026

    科技携手同济大学长聘教授、上海创智学院全时导师陈广,共有3人工智能研究成果被大会正式录用。作为全球人工智能领域最具影响力的学术会议之一,ICLR 致力于推动深度学习与表征学习的前沿突
    的头像 发表于 02-12 17:42 1.1w次阅读
    西井科技携手同济大学 三<b class='flag-5'>篇</b>AI研究成果<b class='flag-5'>入选</b><b class='flag-5'>顶</b><b class='flag-5'>会</b><b class='flag-5'>ICLR</b> <b class='flag-5'>2026</b>

    智能斩获多项人工智能行业大奖

    近日,权威科技媒体量子位揭晓「2025人工智能年度榜单」,榜单旨在挖掘中国AI生态最具代表性的一批力量缩影。智能一并斩获「2025人工智能
    的头像 发表于 02-02 17:03 1438次阅读

    小鹏汽车与北京大学研究论文成功入选AAAI 2026

    近日,AAAI 2026公布了论文录用结果,该会议是人工智能领域的国际顶级会议之一。据悉,AAAI 2026共收到23,680份论文投稿,其
    的头像 发表于 01-04 11:22 768次阅读
    小鹏汽车与北京大学研究<b class='flag-5'>论文</b>成功<b class='flag-5'>入选</b>AAAI <b class='flag-5'>2026</b>

    维智科技入选2025中国科创好公司人工智能榜单

    12月10日,财联社与《科创板日报》共同发布的“2025中国科创好公司”榜单正式揭晓。维智科技凭借其在人工智能领域的技术领先性与商业化成果,成功入选人工智能好公司榜单。
    的头像 发表于 12-12 12:45 867次阅读

    MediaTek多论文入选全球前沿国际学术会议

    MediaTek 宣布,今年旗下多论文入选 ISSCC、NeurIPS、CVPR、ICLR、ICML、ICC、CLOBECOM 等全球半导体、人工
    的头像 发表于 12-02 14:43 738次阅读

    智能论文入选四大国际

    2025年以来,智能在多项前沿研究领域取得突破性进展,近期在NeurIPS、ICCV、AAAI、ACMMM四大国际会上有 6
    的头像 发表于 11-24 16:42 1439次阅读
    <b class='flag-5'>后</b><b class='flag-5'>摩</b><b class='flag-5'>智能</b>六<b class='flag-5'>篇</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b>四大国际<b class='flag-5'>顶</b><b class='flag-5'>会</b>

    理想汽车12论文入选全球五大AI

    2025年三季度以来,理想汽车基座模型团队在国际顶级AI学术会议上取得重大突破,共有12高质量研究论文入选AAAI、NeurIPS、EMNLP、ACM MM、ICCV五大
    的头像 发表于 11-21 14:44 1000次阅读
    理想汽车12<b class='flag-5'>篇</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b>全球五大AI<b class='flag-5'>顶</b><b class='flag-5'>会</b>

    Nullmax端到端轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能 AAAI 2026 公布论文录用结果,Nullmax 研发团队的端到端轨迹规划
    的头像 发表于 11-12 10:53 1064次阅读

    智能论文入选三大国际

    2025 年上半年,继年初被 AAAI、ICLR、DAC 三大国际会收录 5 论文
    的头像 发表于 05-29 15:37 1485次阅读

    云知声四论文入选自然语言处理ACL 2025

    结果正式公布。云知声在此次国际学术盛会中表现卓越,共有4论文被接收,其中包括2论文(Ma
    的头像 发表于 05-26 14:15 1454次阅读
    云知声四<b class='flag-5'>篇</b><b class='flag-5'>论文</b><b class='flag-5'>入选</b>自然语言处理<b class='flag-5'>顶</b><b class='flag-5'>会</b>ACL 2025