0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer压缩部署的前沿技术:RPTQ与PB-LLM

后摩智能 来源:后摩智能 2024-01-24 14:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着人工智能技术的迅速发展,Transformer在自然语言处理、机器翻译、问答系统等领域取得了显著的性能提升。然而,这些模型的部署面临着巨大的挑战,主要源于其庞大的模型尺寸和内存消耗。

在部署过程中,网络压缩是一种常用的解决方案,可以有效减小模型的体积,提高模型在移动设备等资源受限环境下的部署效率。其中,量化技术是将大模型中的浮点数参数转换为整数,并进行存储和计算的方法。由于Transformer的网络参数越来越多、计算量越来越大,对于存储和计算资源有限的边缘设备来说,模型部署带来了很大的挑战。

网络量化是一种常见的解决方案,通过将模型参数量化为整数,可以大幅度减少模型的存储空间和计算量,从而实现在边缘设备上高效部署Transformer。

后摩智能也在Transformer量化提出了一些领先的算法方案。在本文中,我们将重点介绍两种针对Transformer的量化方案:

RPTQ(Reorder-based Post-training Quantization)

PB-LLM(Partially Binarized Large Language Models)

这两种方法分别针对激活量化和权重量化,旨在实现极端低位量化,同时保持语言推理能力。

RPTQ:

量化激活通道的新思路

46c8f2a2-ba7e-11ee-8b88-92fbcf53809c.png

RPTQ(Reorder-based Post-training Quantization)是后摩智能团队与华中科技大学等合作单位提出的一种全新的量化方法,旨在解决量化Transformer时激活通道之间的数值范围差异问题。

相较于以往的研究,RPTQ首次将3位激活引入了LLMs,实现了显著的内存节省,例如在量化OPT-175B模型方面,内存消耗降低了高达80%。RPTQ的关键思想是通过重新排列激活通道并按簇量化,从而减少通道范围差异的影响。同时,通过操作融合,避免了显式重新排序的操作,使得RPTQ的开销几乎为零。通过这种方法,RPTQ有效地解决了激活通道数值范围差异导致的量化误差问题。

PB-LLM:

实现极端低位量化的新突破

47152bf4-ba7e-11ee-8b88-92fbcf53809c.png

PB-LLM(Partially Binarized Large Language Models)是后摩智能团队与伊利诺伊理工和伯克利大学等单位合作提出的另一种创新性量化方法,主要针对权重量化。目前该篇论文已被接收至ICLR 2024,ICLR 以介绍和发布人工智能、统计学和数据科学领域深度学习的尖端研究而闻名,被认为是“深度学习的顶级会议”。

相较于传统的二值化方法,PB-LLM采用了部分二值化的策略,即将一部分显著权重分配到高位存储,从而在实现极端低位量化的同时,保持了Transformer的语言推理能力。通过对显著权重的充分利用,PB-LLM取得了显著的性能提升,为Transformer的内存消耗和计算复杂度提供了有效的解决方案。这是学术界首次探索对Transformer权重数值二值化的工作。

后摩智能的技术优势:突破性内存计算技术驱动AI发展

后摩智能作为大算力存算一体领域的先行者,凭借着RPTQ和PB-LLM等创新性量化方法的提出,取得了在大型语言模型中实现极端低位量化的突破。同时,后摩智能团队在内存计算领域拥有深厚的研究实力和丰富的实践经验,与行业内多家顶尖机构展开了广泛的合作。这使得后摩智能得以不断推动内存计算技术的发展,为人工智能技术的应用提供了更多创新性解决方案。

总的来说,后摩智能的RPTQ和PB-LLM等突破性量化方法为解决大型语言模型部署中的内存消耗和计算复杂度问题提供了有效的解决方案。随着内存计算技术的不断演进,后摩智能将继续致力于推动人工智能技术的发展,实现万物智能的愿景。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261634
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14565
  • LLM
    LLM
    +关注

    关注

    1

    文章

    341

    浏览量

    1258

原文标题:后摩前沿 | Transformer 压缩部署的前沿技术:RPTQ与PB-LLM

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    ,TensorRT LLM 还承担着推理领域新技术载体的角色,通过将前沿创新引入 LLM 推理生态,持续提升整个生态系统合作伙伴的技术能力。
    的头像 发表于 10-21 11:04 773次阅读

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    话:基于历史回答图中女孩头发和衣服分别是什么颜色 上一次我们详细讲解在RK3576上部署多模态模型的案例,这次将继续讲解多轮对话的部署流程。整体流程基于 rknn-llm 里的多轮对话案例[1
    发表于 09-05 17:25

    Google Cloud展示一系列前沿技术更新

    在 2025 Google 谷歌开发者大会上,Google Cloud 展示了一系列前沿技术更新——不仅是模型升级,更是智能体、创意、行业应用的全面进化。这些前沿技术,正为出海开发者提供强大的技术支撑,助力他们打造面向全球用户的
    的头像 发表于 08-29 09:38 884次阅读

    喜报 | 中科亿海微获批2025年度省前沿技术研发计划项目

    中科亿海微获批2025年度省前沿技术研发计划项目近日,江苏省科学技术厅发布《2025年度省前沿技术研发计划拟立项目公示》,由中科亿海微电子科技(苏州)有限公司(以下简称中科亿海微)牵头申报的“面向
    的头像 发表于 08-04 19:24 1041次阅读
    喜报 | 中科亿海微获批2025年度省<b class='flag-5'>前沿技术</b>研发计划项目

    声智科技与蚂蚁集团共探声学AI前沿技术

    当声学AI遇上金融科技,会碰撞出怎样的火花?当声学AI模型赋能AI硬件产品,又将如何重塑人机交互的边界?近日,声智科技受邀参加蚂蚁集团《AI圆桌派》内部分享会,一场关于声学AI前沿技术与未来应用的深度对话就此展开。
    的头像 发表于 07-24 10:18 813次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署
    的头像 发表于 07-04 14:38 1768次阅读

    MediaTek前沿技术开启智能化未来

    为了搞定越来越庞大的 AI 运算需求,MediaTek 凭借先进制程解决方案、高速芯片互联接口、采用先进封装技术,以及客制化高带宽内存(HBM)整合方案等,让前沿技术的商业化落地成为可能。此外
    的头像 发表于 06-25 16:09 813次阅读

    天合光能亮相第十八届全球光伏前沿技术大会

    近日,第十八届全球光伏前沿技术大会在上海开幕。天合光能战略、产品与市场负责人张映斌博士受邀发表主题演讲并倡导:随着背面发电技术的进步,光伏行业应与时俱进、全面升级以组件综合效率及综合发电为核心指标的评价新体系。
    的头像 发表于 06-16 10:47 798次阅读

    青铜剑技术亮相第九届电气化交通前沿技术论坛

    此前,5月22-24日,第九届电气化交通前沿技术论坛在秦皇岛成功举办。青铜剑技术携功率器件驱动整体解决方案精彩亮相,全面展示了公司在驱动领域的技术优势与创新成果,成为现场关注的焦点。
    的头像 发表于 05-28 18:10 874次阅读

    MediaTek新一代前沿技术亮相COMPUTEX 2025

    计算的新一代前沿技术;MediaTek 副董事长暨执行长蔡力行博士于 5 月 20 日发表主题演讲,深入探讨 AI、6G、边缘计算、云计算在数字化转型浪潮中所扮演的角色,并展现 MediaTek 将无处不在的智慧融合运算带给全球用户的企业愿景。
    的头像 发表于 05-23 09:32 754次阅读

    基于先进MCU的机器人运动控制系统设计:理论、实践与前沿技术

    摘要 :随着机器人技术的飞速发展,对运动控制系统的性能要求日益严苛。本文聚焦于基于先进MCU(微控制单元)的机器人运动控制系统设计,深入剖析其理论基础、实践方法与前沿技术。以国科安芯的MCU芯片
    的头像 发表于 04-27 10:58 687次阅读

    MediaTek在MWC 2025展示前沿技术

    MediaTek 在 MWC 2025 上展示了超多领域的前沿技术,让我们一起来回顾一下吧!
    的头像 发表于 04-08 14:43 852次阅读

    【幸狐Omni3576边缘计算套件试用体验】DeepSeek 部署及测试

    Python API 在开发板上进行部署。 在官方提供的示例程序框架下,仅需要完成模型训练和模型转换(模型转换可参考 rknn-llm 仓库下 rknn-llm/examples
    发表于 03-21 19:31

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识库

    继续学习迪哥的AI Agent入门引导书籍。 LLM在落地应用中面临着专业领域表现不足、知识更新困难、容易产生\"幻觉\"等问题,这些挑战严重制约了AI技术在各行业的深入
    发表于 03-07 19:49

    汉得利多项前沿技术亮相CES 2025

    近日,在拉斯维加斯盛大举行的CES 2025现场,汉得利 BESTAR 展示了定向音响、座椅振动、压电微泵等多项前沿技术,迅速吸引了众多观众亲身参与体验。尤其是座椅振动技术和定向音响赢得了现场参观者
    的头像 发表于 01-10 09:38 824次阅读