0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型压缩技术,加速AI大模型在终端侧的应用

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-04-24 01:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)当前,全球众多科技企业都在积极研究AI大模型,然而因为参数规模太大,要想实现AI大模型在边/端侧部署,需要用到模型压缩技术。当前谷歌、微软、腾讯等厂商在该领域均有布局,加速AI技术与智能终端的融合。

为什么需要模型压缩技术

模型压缩是一种缩小训练后的神经网络的技术,目的是保证模型预测效果的前提下,尽可能地降低模型的大小。模型压缩之后,所需要的计算资源变小,有利于在移动端部署。

有一个很形象的例子,深度学习变脸业务,假设在模型优化前,原始模型处理每个视频要30秒,那么一张GPU卡一分钟只能处理2个视频。假设APP的使用峰值是1000人同时使用,那么这家公司至少要有500张GPU卡才能满足需求。

如果模型压缩技术能让模型变小许多,使得每个视频处理只需要10秒,那么这个客户可能只需要150张卡就能满足业务需求。每年的成本可以从原来的3000万控制在1000万左右,省下的2000万,就是模型压缩技术的价值。

量化、网络剪枝和知识蒸馏

模型压缩的方法主要有量化、网络剪枝、知识蒸馏。量化的意思是,将浮点计算转成低比特定点计算,模型由大量的浮点型权重组成,如果能用float32替代原有的float64表示,模型就近乎减小一倍,量化也是最容易实现的一种压缩方式。

传统意义上的量化即为将连续信号转换为离散信号,在神经网络的量化中,即将浮点数float32→int8,int4,int2等,量化其本质就是低精度,常规精度一般使用FP32存储模型权重,低精度则表示FP16,或INT8等数值格式,不过目前低精度往往指的是INT8。

模型压缩,使得原本只能在云端运行大模型,也能够部署在终端设备上。比如,近年来很流行的基础模型 Stable Diffusion ,它是一个非常出色的从文本到图像的生成式 AI 模型,能够基于任何文本输入,在数十秒内创作出逼真图像。Stable Diffusion 的参数超过 10 亿,此前主要限于在云端运行。

高通 AI Research 利用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化,首次实现了在Android智能手机上部署 Stable Diffusion,其中就用到了模型压缩技术量化的方法。

据介绍,高通的全栈 AI 研究指跨应用、神经网络模型、算法、软件和硬件进行优化。针对 Stable Diffusion,他们从 Hugging Face 的 FP32 1-5 版本开源模型入手,通过量化、编译和硬件加速进行优化,使其能在搭载第二代骁龙 8 移动平台的手机上运行。

为了把模型从 FP32 压缩为 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的训练后量化。自适应舍入 (AdaRound) 等先进的高通 AIMET 量化技术能够在更低精度水平保持模型准确性,无需进行重新训练。

这些技术能够应用于构成 Stable Diffusion 的所有组件模型,即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让模型适合于在终端上运行至关重要。

网络剪枝,是指除神经网络中冗余的通道、神经元节点等。深度学习模型可以看作是一个复杂树状结构,如果能减去一些对结果没什么影响的旁枝,就可以实现模型的减小。

模型的构成是由许多浮点型的神经元相连接,每一层根据神经元的权重将信息向下传递。但是有一些神经元的权重非常小,这类神经元对整个模型加载的信息影响微乎其微。如果可以把这些权重较小的神经元删减掉,既减少了模型大小,也不会对模型的效果带来大的影响。

每一层把数值小的神经元去掉,但是剪枝粒度维持到多大也是有讲究的,比如可以把每层最小的5个减掉,也可能只剪3个,或者每层有每层不同的策略。剪多了,模型精度影响会比较大,剪少了没有效果。所以这里面需要大量的尝试和迭代。

知识蒸馏,是指将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。一般而言,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。

因此,可以利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩。

小结

当下,AI大模型发展如火如荼,然而因为参数规模太大,不仅仅是训练,大模型的部署推理,也需要倚赖丰富的计算资源。如果想要大模型能够在边/终端侧实现部署,这其中就需要用到模型压缩技术,如高通使用量化的方法,让Stable Diffusion能够在手机上运行。




声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296549
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何利用NPU与模型压缩技术优化边缘AI

    AI 模型体积庞大,部署 NPU上常常面临困难,这凸显了模型压缩技术的重要性。要实现高效的实
    的头像 发表于 11-07 15:26 1035次阅读
    如何利用NPU与<b class='flag-5'>模型</b><b class='flag-5'>压缩</b><b class='flag-5'>技术</b>优化边缘<b class='flag-5'>AI</b>

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    广和通发布端情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端
    的头像 发表于 09-26 13:37 1602次阅读

    此芯科技发布“合一”AI加速计划,赋能边缘与端AI创新

    产品组合,覆盖从1.5B至32B参数规模的端AI模型推理需求,满足工业、消费电子、智能终端等多样化场景的部署需求,推动AI
    的头像 发表于 09-15 11:53 2011次阅读
    此芯科技发布“合一”<b class='flag-5'>AI</b><b class='flag-5'>加速</b>计划,赋能边缘与端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>创新

    当主控SoC遇上AI模型,物奇智能蓝牙芯片驱动端AI新场景

    随着大模型等人工智能技术的飞速发展,终端AI作为大模型部署前沿,正引领交互形态从单一语言向多模态交互演进,催生出众多创新场景。在这场新
    的头像 发表于 08-27 11:29 1.4w次阅读
    当主控SoC遇上<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,物奇智能蓝牙芯片驱动端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>新场景

    华为CANN与智谱GLM端模型完成适配

    已于7月28日正式开源其新一代基座模型GLM-4.5,其GLM端模型已完成与CANN的适配。这标志着国产大模型与计算架构端云协同方向实现
    的头像 发表于 08-11 11:00 2196次阅读

    LLaVA、RWKV、Qwen3... 移远端AI模型解决方案实现多维度跃迁

    AI以破竹之势席卷千行百业,大模型技术正以惊人的速度迭代演进,重塑着智能世界的底层逻辑。作为全球AIoT行业的引领者,移远通信通过持续迭代和探索,
    的头像 发表于 06-23 19:07 733次阅读
    LLaVA、RWKV、Qwen3... 移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案实现多维度跃迁

    首创开源架构,天玑AI开发套件让端AI模型接入得心应手

    ,联发科带来了全面升级的天玑AI开发套件2.0,模型库规模、架构开放程度、前沿端AI技术支持
    发表于 04-13 19:52

    AI模型端侧部署正当时:移远端AI模型解决方案,激活场景智能新范式

    AI技术飞速发展的当下,AI模型的应用正从云端向端加速
    发表于 03-27 11:26 418次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>端侧部署正当时:移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案,激活场景智能新范式

    AI模型端侧部署正当时:移远端AI模型解决方案,激活场景智能新范式

    AI技术飞速发展的当下,AI模型的应用正从云端向端加速
    的头像 发表于 03-26 19:05 985次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>端侧部署正当时:移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案,激活场景智能新范式

    高通推动终端AI释放全新价值

    通过蒸馏技术将百亿参数模型压缩至端设备可运行的创新,让AI推理成本大幅下降,为终端
    的头像 发表于 03-21 09:28 980次阅读
    高通推动<b class='flag-5'>终端</b><b class='flag-5'>侧</b><b class='flag-5'>AI</b>释放全新价值

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    DeepSeek大模型受行业热捧,加速AI应用迭代

    趋势反映出DeepSeek大模型AI领域的强大影响力。通过接入DeepSeek,这些机构能够获取更先进的AI技术支持,从而提升其产品的智能
    的头像 发表于 02-14 14:14 1032次阅读

    移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速AI落地

    。   目前,该模型正在多款智能终端上进行深入测试与优化。移远通信将凭借其卓越的工程化能力,加速AI
    发表于 02-13 11:32 445次阅读
    移远通信边缘计算模组成功运行DeepSeek<b class='flag-5'>模型</b>,以领先的工程能力<b class='flag-5'>加速</b>端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>落地

    移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速AI落地

    。目前,该模型正在多款智能终端上进行深入测试与优化。移远通信将凭借其卓越的工程化能力,加速AI技术
    的头像 发表于 02-12 19:03 763次阅读
    移远通信边缘计算模组成功运行DeepSeek<b class='flag-5'>模型</b>,以领先的工程能力<b class='flag-5'>加速</b>端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>落地