大模型端侧部署加速，都有哪些芯片可支持？-电子发烧友网

电子发烧友网报道（文/李弯弯）大模型在端侧部署是指将大型神经网络模型部署在移动终端设备上，使这些设备能够直接运行这些模型，从而执行各种人工智能任务，如图像识别、语音识别、自然语言处理等。随着大模型小型化、场景化需求的增加，推理逐步从云端扩展向端侧。这种趋势在PC和手机等终端产品上尤为明显。

大模型在端侧部署加速

大模型在端侧部署的过程通常包括几个阶段，首先是模型训练阶段，在这个阶段，使用大量的标注数据训练出对应的模型文件。训练时需要考虑模型的大小和计算量，以便适应端侧设备的硬件条件。

接着是模型压缩，为了降低模型在端侧设备上的存储和运行压力，通常需要对模型进行压缩。这可以通过剪枝、量化等手段来实现，以减小模型的大小和降低计算复杂度。

再就是模型部署，在这个阶段，将压缩后的模型部署到端侧设备上。这包括将模型文件传输到设备上，在设备上安装必要的推理引擎和运行时环境等步骤。

最后，在模型部署完成后，端侧设备就可以使用这些模型进行推理计算了。这通常包括加载模型、输入数据预处理、模型计算、结果输出等步骤。

在大模型端侧部署过程中，需要考虑一些技术挑战和限制。例如，端侧设备的硬件条件通常比云端服务器要差很多，因此需要在模型设计和压缩阶段充分考虑这些因素。此外，端侧设备的网络带宽和延迟也可能对模型推理的实时性和准确性产生影响。

为了克服这些挑战和限制，一些技术工具和平台被开发出来，如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。这些工具可以帮助用户更方便地构建、部署和管理机器学习模型，从而提高模型在端侧设备上的性能和可用性。

现如今，大模型在端侧的部署正在加速。在PC领域，继英特尔推出首个AI PC处理器后，联想集团、惠普、宏碁等厂商相继发布多款AI PC新品。据报道，已有超过10款笔记本可以本地运行AI大模型，并且还有一批新品将陆续上市。

在手机领域，从2023年下半年开始，小米、OPPO、vivo等手机厂商纷纷在新系统中增加大模型能力。到2024年1月，中国手机市场Top5中，除苹果之外，已经全数发布自有端侧大模型产品。

大模型在端侧部署的优势也日益凸显。一方面，端侧部署可以降低数据传输延迟和带宽限制，提高实时性和响应速度。另一方面，端侧部署可以更好地保护用户隐私和数据安全，因为数据可以在本地进行处理，而无需传输到云端。

国内外厂商推出支持大模型端侧部署芯片

大模型要在端侧部署离不开芯片的支持，英特尔、高通、联发科等都推出了针对大模型在PC、手机等移动端部署所需的芯片。英特尔推出了首款基于Intel 4制程的酷睿Ultra系列处理器第一代产品Mete or Lake，这款处理器首次在客户端CPU中采用了Chiplet（芯粒）设计和自家的Foveros先进封装技术，集成了NPU（神经网络处理单元），可以本地运行200亿参数大模型，无需联网即可秒级生成高质量多模态数据。

高通发布的第三代骁龙8移动平台，是其首个专为生成式AI打造的移动平台。该平台支持在终端侧运行100亿参数的模型，并面向70亿参数大预言模型每秒生成高达20个token，且能够在终端侧通过Stable Diffusion生成图片。

此外，高通还推出了AI Hub，这是一个为开发者提供的AI模型库，包括传统AI模型和生成式AI模型，能够支持在骁龙和高通平台上进行部署。这个模型库支持超过75个AI模型，如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等，开发者可以轻松地获取这些模型并将其集成到应用程序中。

联发科与阿里云展开深度合作，在天玑9300和天玑8300移动平台上实现了通义千问大模型的端侧部署。联发科的天玑系列移动芯片，如天玑9300和天玑8300，都是高性能、高能效的移动计算平台。这些芯片不仅具有强大的处理能力，还支持先进的5G技术和生成式AI技术，为端侧大模型部署提供了坚实的基础。

另外，国内的爱芯元智、芯动力科技等公司也针对大模型在端侧的部署优化产品。爱芯元智的AX650N芯片在大模型端侧部署方面就展现出了显著的优势。

具体来说，AX650N在部署Swin Transformer这类大型视觉模型时，能够保持高精度和高效率。由于大部分端侧AI芯片在架构上对于MHA（Multi-Head Attention）结构没有过多优化，因此部署大型模型时往往需要进行网络结构的修改，这可能导致精度下降和重训的麻烦。然而，AX650N通过其独特的架构和优化，能够直接支持原版Swin Transformer的部署，从测试板到demo复现只需要5分钟，私有模型在私有环境中运行也仅需1小时。

此外，AX650N还具备32路视频解码/视频结构化处理、被动散热、支持低延时编解码、HDMI输出和USB 3.0等特性，这些特性使得它非常适合用于各种视觉感知和边缘计算的应用场景。在大模型端侧部署方面，AX650N不仅提供了强大的计算能力，还通过其易部署和低功耗的特点，为实际应用落地提供了更多的可能性。

芯动力科技是一家清华系的AI芯片创企，他们面向大模型推出了AzureBlade L系列M.2加速卡。这款加速卡具有强大的性能，能够顺利运行大模型系统，并且其大小仅为80mm（长）x22mm（宽），非常适合在PC等端侧设备上部署。

AzureBlade L系列M.2加速卡已经实现了与Llama 2、Stable Diffusion等模型的适配，成为助推大模型在端侧设备上部署的加速器。这种具备体积小、性能强，且有通用接口的M.2加速卡，能够突破端侧设备有限的计算和存储能力，为大模型在端侧的落地提供了机会。

写在最后

大模型在端侧部署是一个复杂的过程，需要考虑多种因素和技术挑战。但是通过合理的模型设计、压缩和优化以及使用适当的工具和平台，就可以让端侧设备具备更强的人工智能能力。如今，在产业链各环节的努力下，大模型在端侧部署的现状呈现出加速的趋势，预计，未来随着技术的不断进步和优化，大模型在端侧部署的应用将会越来越广泛。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4592

浏览量
99374
大模型

大模型

+关注

关注
2

文章
1822

浏览量
1417

支持大模型部署和运行的边缘计算SoC芯片

电子发烧友网报道（文/李弯弯）如今，AI在边缘侧的应用越来越广泛，这其中少不了AI SoC芯片的支持，边缘计算AI SoC是一种集成了人工智能（AI）和边缘计算能力的系统级芯片。这种芯片

发表于 05-27 08:00 •2122次阅读

联发科旗舰芯片部署阿里云大模型

全球智能手机芯片出货量领先的半导体公司联发科近日宣布，已成功在天玑9300等旗舰芯片上集成阿里云通义千问大模型，实现了大模型在手机芯片端的深

发表于 03-28 13:59 •207次阅读

使用CUBEAI部署tflite模型到STM32F0中，模型创建失败怎么解决？

看到CUBE_AI已经支持到STM32F0系列芯片，就想拿来入门嵌入式AI。生成的模型很小，是可以部署到F0上的，但是一直无法创建成功。查阅CUBE AI文档说在调用create

发表于 03-15 08:10

人工智能十大趋势预测：更多多模态、大模型端侧部署加速！智能化应用呈爆发式增长

期。而2024年被认为是大模型的应用之年，不难看到，人工智能将会呈现一些明显趋势。如：无论是在消费级还是垂直行业领域，大模型的应用都会加速；在市场应用的驱动下，无论是算力、数据，还是多模态大

发表于 02-18 00:03 •3228次阅读

Meta计划今年部署自研定制芯片，以加速AI研发

Meta公司近日宣布计划在今年内为其数据中心部署一款自研定制芯片，以支持其人工智能（AI）的研发工作。这一举措旨在提高Meta在AI领域的竞争力，并加速其技术发展。

发表于 02-03 10:48 •359次阅读

存算一体芯片如何支持Transformer等不同模型？

后摩智能致力于打造通用人工智能芯片，自主研发的存算一体芯片在支持各类模型方面表现突出，包括YOLO系列网络、BEV系列网络、点云系列网络等。

发表于 01-05 14:14 •935次阅读

边缘侧部署大模型优势多！模型量化解决边缘设备资源限制问题

设备上，可以减少数据传输的延迟和带宽需求，提高模型的实时性和响应速度。边缘端部署大模型的优势边缘侧部署大模型有诸多优势。低延迟：

发表于 01-05 00:06 •1928次阅读

AI大模型接入手机，行业迎来新一轮竞赛

选择端侧部署，看上去最划算当前，AI大模型接入手机存在两种选择：云端部署和端侧部署。目前，大多数厂商选择在端侧部署轻量级大

发表于 12-05 10:11 •491次阅读

走向边缘智能，美格智能携手阿加犀成功在高算力AI模组上运行一系列大语言模型

大模型、RedPajama、ChatGLM2、Vicuna，展现出卓越的边缘端大模型部署能力。▌构建智算底座，加速大模型端

发表于 11-14 14:34 •240次阅读

PODsys：大模型AI算力平台部署的开源“神器”

大模型是通用人工智能的底座，但大模型训练对算力平台的依赖非常大。大模型算力平台是指支撑大模型训练和推理部署的算力基础设施，包括业界最新的

发表于 11-08 09:17 •541次阅读

如何本地部署大模型

近期，openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp两款应用，以支持用户在本地部署和使用免费的开源大语言模型，无需联网也能使用！

发表于 10-18 11:48 •1980次阅读

联发科宣布与OPPO合作，共建轻量化大模型端侧部署方案

据介绍，联发科先进的ai处理器apu和ai开发平台neuropilot构建了完整的终端ai和生成式ai计算生态，加速了边缘ai计算的应用开发和着陆，强化了大规模语言模型和生成式ai应用性能。

发表于 10-12 09:48 •508次阅读

地平线旭日3成功部署运行参数规模高达14亿的大语言模型

了BPU对先进神经网络算法的高效支持，为大模型在端侧实现产品级应用拓展了更广阔的想象空间。大模型端侧部署的技术实践对加速智能化产业变革具有

发表于 09-12 09:24 •602次阅读

如何使用TensorFlow将神经网络模型部署到移动或嵌入式设备上

有很多方法可以将经过训练的神经网络模型部署到移动或嵌入式设备上。不同的框架在各种平台上支持Arm，包括TensorFlow、PyTorch、Caffe2、MxNet和CNTK，如Android

发表于 08-02 06:43

TorchVision框架下模型导出并部署到ONNXRUNTIME C++全流程解析

ONNXRUNTIME是主流的深度学习部署框架之一，支持ONNX格式模型在CPU、GPU、ARM等不同硬件平台上加速推理，支持C++、Pyt

发表于 07-13 14:46 •861次阅读