0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型端侧部署加速,都有哪些芯片可支持?

Carol Li 来源:电子发烧友 作者:李弯弯 2024-05-24 00:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)大模型在端侧部署是指将大型神经网络模型部署在移动终端设备上,使这些设备能够直接运行这些模型,从而执行各种人工智能任务,如图像识别、语音识别、自然语言处理等。随着大模型小型化、场景化需求的增加,推理逐步从云端扩展向端侧。这种趋势在PC和手机等终端产品上尤为明显。

大模型在端侧部署加速

大模型在端侧部署的过程通常包括几个阶段,首先是模型训练阶段,在这个阶段,使用大量的标注数据训练出对应的模型文件。训练时需要考虑模型的大小和计算量,以便适应端侧设备的硬件条件。

接着是模型压缩,为了降低模型在端侧设备上的存储和运行压力,通常需要对模型进行压缩。这可以通过剪枝、量化等手段来实现,以减小模型的大小和降低计算复杂度。

再就是模型部署,在这个阶段,将压缩后的模型部署到端侧设备上。这包括将模型文件传输到设备上,在设备上安装必要的推理引擎和运行时环境等步骤。

最后,在模型部署完成后,端侧设备就可以使用这些模型进行推理计算了。这通常包括加载模型、输入数据预处理、模型计算、结果输出等步骤。

在大模型端侧部署过程中,需要考虑一些技术挑战和限制。例如,端侧设备的硬件条件通常比云端服务器要差很多,因此需要在模型设计和压缩阶段充分考虑这些因素。此外,端侧设备的网络带宽和延迟也可能对模型推理的实时性和准确性产生影响。

为了克服这些挑战和限制,一些技术工具和平台被开发出来,如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。这些工具可以帮助用户更方便地构建、部署和管理机器学习模型,从而提高模型在端侧设备上的性能和可用性。

现如今,大模型在端侧的部署正在加速。在PC领域,继英特尔推出首个AI PC处理器后,联想集团、惠普、宏碁等厂商相继发布多款AI PC新品。据报道,已有超过10款笔记本可以本地运行AI大模型,并且还有一批新品将陆续上市。

在手机领域,从2023年下半年开始,小米、OPPO、vivo等手机厂商纷纷在新系统中增加大模型能力。到2024年1月,中国手机市场Top5中,除苹果之外,已经全数发布自有端侧大模型产品。

大模型在端侧部署的优势也日益凸显。一方面,端侧部署可以降低数据传输延迟和带宽限制,提高实时性和响应速度。另一方面,端侧部署可以更好地保护用户隐私和数据安全,因为数据可以在本地进行处理,而无需传输到云端。

国内外厂商推出支持大模型端侧部署芯片

大模型要在端侧部署离不开芯片的支持,英特尔、高通联发科等都推出了针对大模型在PC、手机等移动端部署所需的芯片。英特尔推出了首款基于Intel 4制程的酷睿Ultra系列处理器第一代产品Meteor Lake,这款处理器首次在客户端CPU中采用了Chiplet(芯粒)设计和自家的Foveros先进封装技术,集成了NPU(神经网络处理单元),可以本地运行200亿参数大模型,无需联网即可秒级生成高质量多模态数据。

高通发布的第三代骁龙8移动平台,是其首个专为生成式AI打造的移动平台。该平台支持在终端侧运行100亿参数的模型,并面向70亿参数大预言模型每秒生成高达20个token,且能够在终端侧通过Stable Diffusion生成图片。

此外,高通还推出了AI Hub,这是一个为开发者提供的AI模型库,包括传统AI模型和生成式AI模型,能够支持在骁龙和高通平台上进行部署。这个模型库支持超过75个AI模型,如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等,开发者可以轻松地获取这些模型并将其集成到应用程序中。

联发科与阿里云展开深度合作,在天玑9300和天玑8300移动平台上实现了通义千问大模型的端侧部署。联发科的天玑系列移动芯片,如天玑9300和天玑8300,都是高性能、高能效的移动计算平台。这些芯片不仅具有强大的处理能力,还支持先进的5G技术和生成式AI技术,为端侧大模型部署提供了坚实的基础。

另外,国内的爱芯元智、芯动力科技等公司也针对大模型在端侧的部署优化产品。爱芯元智的AX650N芯片在大模型端侧部署方面就展现出了显著的优势。

具体来说,AX650N在部署Swin Transformer这类大型视觉模型时,能够保持高精度和高效率。由于大部分端侧AI芯片在架构上对于MHA(Multi-Head Attention)结构没有过多优化,因此部署大型模型时往往需要进行网络结构的修改,这可能导致精度下降和重训的麻烦。然而,AX650N通过其独特的架构和优化,能够直接支持原版Swin Transformer的部署,从测试板到demo复现只需要5分钟,私有模型在私有环境中运行也仅需1小时。

此外,AX650N还具备32路视频解码/视频结构化处理、被动散热、支持低延时编解码、HDMI输出和USB 3.0等特性,这些特性使得它非常适合用于各种视觉感知和边缘计算的应用场景。在大模型端侧部署方面,AX650N不仅提供了强大的计算能力,还通过其易部署和低功耗的特点,为实际应用落地提供了更多的可能性。

芯动力科技是一家清华系的AI芯片创企,他们面向大模型推出了AzureBlade L系列M.2加速卡。这款加速卡具有强大的性能,能够顺利运行大模型系统,并且其大小仅为80mm(长)x22mm(宽),非常适合在PC等端侧设备上部署。

AzureBlade L系列M.2加速卡已经实现了与Llama 2、Stable Diffusion等模型的适配,成为助推大模型在端侧设备上部署的加速器。这种具备体积小、性能强,且有通用接口的M.2加速卡,能够突破端侧设备有限的计算和存储能力,为大模型在端侧的落地提供了机会。

写在最后

大模型在端侧部署是一个复杂的过程,需要考虑多种因素和技术挑战。但是通过合理的模型设计、压缩和优化以及使用适当的工具和平台,就可以让端侧设备具备更强的人工智能能力。如今,在产业链各环节的努力下,大模型在端侧部署的现状呈现出加速的趋势,预计,未来随着技术的不断进步和优化,大模型在端侧部署的应用将会越来越广泛。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106797
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4967
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于Vulkan的侧AI运算

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用图形接口Vulkan的计算着色器能力,在侧部署模型的的整体思路和实践分享。
    的头像 发表于 09-10 17:19 947次阅读
    基于Vulkan的<b class='flag-5'>端</b>侧AI运算

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    , Gemma等开源大模型。当然,一些闭源的(类似chatgpt, gemini)是不支持部署的。如下图: 在侧部署
    发表于 07-19 15:45

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型侧部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5开源版)在其GPU硬件上的侧部署。适配完成后,开发者可在搭载ImaginationGPU的设备上实现高效
    的头像 发表于 07-01 08:17 773次阅读
    Say Hi to ERNIE!Imagination GPU率先完成文心大<b class='flag-5'>模型</b>的<b class='flag-5'>端</b><b class='flag-5'>侧部署</b>

    MediaTek天玑9400率先完成阿里Qwen3模型部署

    通义大模型团队在天玑 9400 旗舰移动平台上率先完成 Qwen3(千问 3)的侧部署。未来,搭载天玑 9400 移动平台的设备充分发挥
    的头像 发表于 05-08 10:11 941次阅读

    AI侧部署案例(SC171开发套件V3)

    AI侧部署案例(SC171开发套件V3) 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 初学者入门手写数字识别案例 20分02秒 https://t.elecfans.com
    发表于 04-16 18:33

    AI侧部署开发(SC171开发套件V3)

    AI侧部署开发(SC171开发套件V3) 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 Fibo AI Stack模型转化指南------Docker Desktop环境操作
    发表于 04-16 18:30

    首创开源架构,天玑AI开发套件让侧AI模型接入得心应手

    模型库的限制,联发科还首发了开源弹性架构。区别于过往的开放接口,只能部署特定架构模型,开放弹性架构允许开发者直接调整平台源代码,无需等待芯片厂商的
    发表于 04-13 19:52

    AI大模型侧部署正当时:移远端侧AI大模型解决方案,激活场景智能新范式

    在AI技术飞速发展的当下,AI大模型的应用正从云端向加速渗透。 作为全球领先的物联网整体解决方案供应商,移远通信凭借深厚的技术积累与前瞻性的战略布局,在AI大模型
    发表于 03-27 11:26 424次阅读
    AI大<b class='flag-5'>模型</b><b class='flag-5'>端</b><b class='flag-5'>侧部署</b>正当时:移远端侧AI大<b class='flag-5'>模型</b>解决方案,激活场景智能新范式

    AI大模型侧部署正当时:移远端侧AI大模型解决方案,激活场景智能新范式

    在AI技术飞速发展的当下,AI大模型的应用正从云端向加速渗透。作为全球领先的物联网整体解决方案供应商,移远通信凭借深厚的技术积累与前瞻性的战略布局,在AI大模型
    的头像 发表于 03-26 19:05 991次阅读
    AI大<b class='flag-5'>模型</b><b class='flag-5'>端</b><b class='flag-5'>侧部署</b>正当时:移远端侧AI大<b class='flag-5'>模型</b>解决方案,激活场景智能新范式

    畅享DeepSeek自由,忆联高性能CSSD为侧大模型加速

    解决。然而,随着用户访问量的激增,服务器无响应、等待时间长等问题也屡见不鲜。一时间,能够离线运行,且更具隐私性的DeepSeek侧部署也成为新风向。 本地部署虽具备诸多优点,但对电脑的硬件配置却有一定的要求。大
    的头像 发表于 03-13 15:35 435次阅读
    畅享DeepSeek自由,忆联高性能CSSD为<b class='flag-5'>端</b>侧大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>

    畅享DeepSeek自由!忆联高性能CSSD为侧大模型加速

    响应、等待时间长等问题也屡见不鲜。一时间,能够离线运行,且更具隐私性的DeepSeek侧部署也成为新风向。 本地部署虽具备诸多优点,但对电脑的硬件配置却有一定的要求。大模型包含大量参
    的头像 发表于 03-13 10:18 545次阅读
    畅享DeepSeek自由!忆联高性能CSSD为<b class='flag-5'>端</b>侧大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>

    黑芝麻智能芯片全面兼容DeepSeek模型推理

    目前,黑芝麻智能武当C1200家族芯片已经完成DeepSeek模型部署,A2000也将全面支持基于DeepSeek的多模态大模型。 伴随D
    的头像 发表于 02-14 11:27 1093次阅读

    侧AI元年爆发!广和通AI模组及解决方案全面支持DeepSeek-R1蒸馏模型

    近期,国产大模型DeepSeek凭借开放性、更低训练成本、侧部署等优势,迅速成为增速最快的AI应用之一,推动AI普惠化。目前,广和通高算力AI模组及解决方案全面支持小尺寸的DeepS
    的头像 发表于 02-11 18:08 832次阅读
    <b class='flag-5'>端</b>侧AI元年爆发!广和通AI模组及解决方案全面<b class='flag-5'>支持</b>DeepSeek-R1蒸馏<b class='flag-5'>模型</b>

    广和通支持DeepSeek-R1蒸馏模型

    近期,国产大模型DeepSeek凭借开放性、更低训练成本、侧部署等优势,迅速成为增速最快的AI应用之一,推动AI普惠化。目前,广和通高算力AI模组及解决方案全面支持小尺寸的DeepS
    的头像 发表于 02-11 09:41 906次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    以及边缘计算能力的增强,越来越多的目标检测应用开始直接在靠近数据源的边缘设备上运行。这不仅减少了数据传输延迟,保护了用户隐私,同时也减轻了云端服务器的压力。然而,在边缘部署高效且准确的目标检测模型
    发表于 12-19 14:33