0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型压缩技术,加速AI大模型在终端侧的应用

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-04-24 01:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)当前,全球众多科技企业都在积极研究AI大模型,然而因为参数规模太大,要想实现AI大模型在边/端侧部署,需要用到模型压缩技术。当前谷歌、微软、腾讯等厂商在该领域均有布局,加速AI技术与智能终端的融合。

为什么需要模型压缩技术

模型压缩是一种缩小训练后的神经网络的技术,目的是保证模型预测效果的前提下,尽可能地降低模型的大小。模型压缩之后,所需要的计算资源变小,有利于在移动端部署。

有一个很形象的例子,深度学习变脸业务,假设在模型优化前,原始模型处理每个视频要30秒,那么一张GPU卡一分钟只能处理2个视频。假设APP的使用峰值是1000人同时使用,那么这家公司至少要有500张GPU卡才能满足需求。

如果模型压缩技术能让模型变小许多,使得每个视频处理只需要10秒,那么这个客户可能只需要150张卡就能满足业务需求。每年的成本可以从原来的3000万控制在1000万左右,省下的2000万,就是模型压缩技术的价值。

量化、网络剪枝和知识蒸馏

模型压缩的方法主要有量化、网络剪枝、知识蒸馏。量化的意思是,将浮点计算转成低比特定点计算,模型由大量的浮点型权重组成,如果能用float32替代原有的float64表示,模型就近乎减小一倍,量化也是最容易实现的一种压缩方式。

传统意义上的量化即为将连续信号转换为离散信号,在神经网络的量化中,即将浮点数float32→int8,int4,int2等,量化其本质就是低精度,常规精度一般使用FP32存储模型权重,低精度则表示FP16,或INT8等数值格式,不过目前低精度往往指的是INT8。

模型压缩,使得原本只能在云端运行大模型,也能够部署在终端设备上。比如,近年来很流行的基础模型 Stable Diffusion ,它是一个非常出色的从文本到图像的生成式 AI 模型,能够基于任何文本输入,在数十秒内创作出逼真图像。Stable Diffusion 的参数超过 10 亿,此前主要限于在云端运行。

高通 AI Research 利用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化,首次实现了在Android智能手机上部署 Stable Diffusion,其中就用到了模型压缩技术量化的方法。

据介绍,高通的全栈 AI 研究指跨应用、神经网络模型、算法、软件和硬件进行优化。针对 Stable Diffusion,他们从 Hugging Face 的 FP32 1-5 版本开源模型入手,通过量化、编译和硬件加速进行优化,使其能在搭载第二代骁龙 8 移动平台的手机上运行。

为了把模型从 FP32 压缩为 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的训练后量化。自适应舍入 (AdaRound) 等先进的高通 AIMET 量化技术能够在更低精度水平保持模型准确性,无需进行重新训练。

这些技术能够应用于构成 Stable Diffusion 的所有组件模型,即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让模型适合于在终端上运行至关重要。

网络剪枝,是指除神经网络中冗余的通道、神经元节点等。深度学习模型可以看作是一个复杂树状结构,如果能减去一些对结果没什么影响的旁枝,就可以实现模型的减小。

模型的构成是由许多浮点型的神经元相连接,每一层根据神经元的权重将信息向下传递。但是有一些神经元的权重非常小,这类神经元对整个模型加载的信息影响微乎其微。如果可以把这些权重较小的神经元删减掉,既减少了模型大小,也不会对模型的效果带来大的影响。

每一层把数值小的神经元去掉,但是剪枝粒度维持到多大也是有讲究的,比如可以把每层最小的5个减掉,也可能只剪3个,或者每层有每层不同的策略。剪多了,模型精度影响会比较大,剪少了没有效果。所以这里面需要大量的尝试和迭代。

知识蒸馏,是指将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。一般而言,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。

因此,可以利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩。

小结

当下,AI大模型发展如火如荼,然而因为参数规模太大,不仅仅是训练,大模型的部署推理,也需要倚赖丰富的计算资源。如果想要大模型能够在边/终端侧实现部署,这其中就需要用到模型压缩技术,如高通使用量化的方法,让Stable Diffusion能够在手机上运行。




声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40941

    浏览量

    302520
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型微调企业项目实战课

    自主可控大模型:企业微调实战课,筑牢未来 AI 底座 人工智能席卷全球商业版图的今天,企业对大模型(LLM)的态度已经从“新奇观望”转变为“全面拥抱”。然而,随着应用层面的不断深入
    发表于 04-16 18:48

    模型 ai coding 比较

    序 我主要用途是 ai coding,从各种渠道获取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    发表于 02-19 13:43

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite
    发表于 01-31 23:16

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Co
    的头像 发表于 12-01 09:25 1391次阅读

    如何利用NPU与模型压缩技术优化边缘AI

    AI 模型体积庞大,部署 NPU上常常面临困难,这凸显了模型压缩技术的重要性。要实现高效的实
    的头像 发表于 11-07 15:26 1392次阅读
    如何利用NPU与<b class='flag-5'>模型</b><b class='flag-5'>压缩</b><b class='flag-5'>技术</b>优化边缘<b class='flag-5'>AI</b>

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    广和通发布端情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端
    的头像 发表于 09-26 13:37 2011次阅读

    此芯科技发布“合一”AI加速计划,赋能边缘与端AI创新

    产品组合,覆盖从1.5B至32B参数规模的端AI模型推理需求,满足工业、消费电子、智能终端等多样化场景的部署需求,推动AI
    的头像 发表于 09-15 11:53 2011次阅读
    此芯科技发布“合一”<b class='flag-5'>AI</b><b class='flag-5'>加速</b>计划,赋能边缘与端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>创新

    当主控SoC遇上AI模型,物奇智能蓝牙芯片驱动端AI新场景

    随着大模型等人工智能技术的飞速发展,终端AI作为大模型部署前沿,正引领交互形态从单一语言向多模态交互演进,催生出众多创新场景。在这场新
    的头像 发表于 08-27 11:29 1.5w次阅读
    当主控SoC遇上<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,物奇智能蓝牙芯片驱动端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>新场景

    华为CANN与智谱GLM端模型完成适配

    已于7月28日正式开源其新一代基座模型GLM-4.5,其GLM端模型已完成与CANN的适配。这标志着国产大模型与计算架构端云协同方向实现
    的头像 发表于 08-11 11:00 2743次阅读

    广和通发布自研端语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端设备上面临的面对面实时对话及多人会议场景深度优化,
    的头像 发表于 08-04 11:43 1744次阅读

    Cognizant加速AI模型企业级开发

    -Cognizant推出AI Training Data Services,助力企业级AI模型加速开发 Cognizant是数据与AI
    的头像 发表于 07-31 17:25 802次阅读

    AI模型加速上车,联手高通,阿里有哪些策略?

    (电子发烧友网报道 文/章鹰)2025年6月26日至27日,“2025高通汽车技术与合作峰会”苏州举行,阿里云副总裁徐栋带来通义大模型发展方向的最新思考,以及汽车领域的端云
    的头像 发表于 07-03 01:10 9263次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>上车,联手高通,阿里有哪些策略?

    LLaVA、RWKV、Qwen3... 移远端AI模型解决方案实现多维度跃迁

    AI以破竹之势席卷千行百业,大模型技术正以惊人的速度迭代演进,重塑着智能世界的底层逻辑。作为全球AIoT行业的引领者,移远通信通过持续迭代和探索,
    的头像 发表于 06-23 19:07 1047次阅读
    LLaVA、RWKV、Qwen3... 移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案实现多维度跃迁