如何本地部署大模型-电子发烧友网

近期，openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp两款应用，以支持用户在本地部署和使用免费的开源大语言模型，无需联网也能使用！

大语言模型（Large Language Model, LLM）是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。openEuler通过集成llama.cpp&chatglm-cpp两款应用，降低了用户使用大模型的门槛，为Build openEuler with AI, for AI, by AI打下坚实基础。

openEuler技术委员会主席胡欣慰在OSSUMMIT 2023中的演讲

应用简介

1. llama.cpp是基于C/C++实现的英文大模型接口，支持LLaMa/LLaMa2/Vicuna等开源模型的部署；

2. chatglm-cpp是基于C/C++实现的中文大模型接口，支持ChatGlm-6B/ChatGlm2-6B/Baichuan-13B等开源模型的部署。

应用特性

这两款应用具有以下特性:

1. 基于ggml的C/C++实现；

2. 通过int4/int8等多种量化方式，以及优化KV缓存和并行计算等手段实现高效的CPU推理；

3. 无需 GPU，可只用 CPU 运行。

使用指南

用户可参照下方的使用指南，在openEuler 23.09版本上进行大模型尝鲜体验。

llama.cpp使用指南如下图所示：

llama.cpp使用指南

正常启动界面如下图所示：

LLaMa启动界面

2. chatlm-cpp使用指南如下图所示：

chatlm-cpp使用指南

正常启动界面如下图所示：

ChatGLM启动界面

规格说明

这两款应用都可以支持在CPU级别的机器上进行大模型的部署和推理，但是模型推理速度对硬件仍有一定的要求，硬件配置过低可能会导致推理速度过慢，降低使用效率。

以下是模型推理速度的测试数据表格，可作为不同机器配置下推理速度的参考。

表格中Q4_0，Q4_1，Q5_0，Q5_1代表模型的量化精度；ms/token代表模型的推理速度，含义为每个token推理耗费的毫秒数，该值越小推理速度越快；

表1 LLaMa-7B测试表格

表2 ChatGLM-6B测试表格

欢迎用户下载体验，玩转开源大模型，近距离感受AI带来的技术革新！

感谢LLaMa、ChatGLM等提供开源大模型等相关技术，感谢开源项目llama.cpp&chatglm-cpp提供模型轻量化部署等相关技术。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230605
C++

C++

+关注

关注
21

文章
2066

浏览量
72900
openEuler

openEuler

+关注

关注
2

文章
289

浏览量
5660
大模型

大模型

+关注

关注
2

文章
1516

浏览量
1105
LLM

LLM

+关注

关注
0

文章
201

浏览量
233

原文标题：手把手带你玩转openEuler | 如何本地部署大模型

文章出处：【微信号：openEulercommunity，微信公众号：openEuler】欢迎添加关注！文章转载请注明出处。

使用CUBEAI部署tflite模型到STM32F0中，模型创建失败怎么解决？

看到CUBE_AI已经支持到STM32F0系列芯片，就想拿来入门嵌入式AI。生成的模型很小，是可以部署到F0上的，但是一直无法创建成功。查阅CUBE AI文档说在调用create函数前，要启用

发表于 03-15 08:10

赛思互动：浅析CRM Online与CRM本地部署的区别

和本地部署解决方案中进行选择（如果不知道什么是云部署什么是本地部署请自行补脑）。对于两种解决方案在过渡时间，功能完善性和延展性等问题的思考往

发表于 08-04 09:20

介绍在STM32cubeIDE上部署AI模型的系列教程

介绍在STM32cubeIDE上部署AI模型的系列教程，开发板型号STM32H747I-disco，值得一看。MCUAI原文链接:【嵌入式AI开发】篇四|部署篇：STM32cubeIDE上部署

发表于 12-14 09:05

Pytorch模型如何通过paddlelite部署到嵌入式设备？

Pytorch模型如何通过paddlelite部署到嵌入式设备？

发表于 12-23 09:38

在Arm虚拟硬件上部署PP-PicoDet模型

1、在Arm虚拟硬件上部署PP-PicoDet模型　　经典的深度学习工程是从确认任务目标开始的，我们首先来简单地介绍一下目标检测任务以及本期部署实战课程中我们所使用的工具和平台。　　目标检测任务

发表于 09-16 14:42

通过Cortex来非常方便的部署PyTorch模型

到软件中。如何从“跨语言语言模型”转换为谷歌翻译？在这篇博客文章中，我们将了解在生产环境中使用 PyTorch 模型意味着什么，然后介绍一种允许部署任何 PyTorch 模型以便在软件

发表于 11-01 15:25

部署基于嵌入的机器学习模型

1、如何在生产中部署基于嵌入的机器学习模型　　由于最近大量的研究，机器学习模型的性能在过去几年里有了显著的提高。虽然这些改进的模型开辟了新的可能性，但是它们只有在可以

发表于 11-02 15:09

如何在MIMXRT1064评估套件上部署tflite模型？

我有一个婴儿哭声检测 tflite (tensorflow lite) 文件，其中包含模型本身。我如何将此模型部署到 MIMXRT1064-evk 以通过 MCUXpresso IDE 运行推理。你能推荐一些用于婴儿哭声检测的教

发表于 04-06 06:24

如何使用TensorFlow将神经网络模型部署到移动或嵌入式设备上

有很多方法可以将经过训练的神经网络模型部署到移动或嵌入式设备上。不同的框架在各种平台上支持Arm，包括TensorFlow、PyTorch、Caffe2、MxNet和CNTK，如Android

发表于 08-02 06:43

P2DR模型中策略部署模型的研究与设计

分析动态自适应网络安全模型P2DR的缺陷，提出对P2DR模型的几点改进建议。针对模型中策略相关不足设计了一个策略部署模型，该

发表于 04-13 09:40 •27次下载

基于NVIDIA Triton的AI模型高效部署实践

NVIDIA Triton 推理服务器(以前称为 TensorRT 推理服务器)是一款开源软件，可简化深度学习模型在生产环境中的部署。借助 Triton 推理服务器，Devops 和 MLops

发表于 06-28 15:49 •1333次阅读

ERP到底该选云部署还是本地部署？两种模式有什么优势？

在过去的十余年中，ERP在中国市场经历了蓬勃的发展，但同时也在与云时代的各类新概念不断碰撞——“云化”，是每一个ERP厂商和ERP使用者无法回避的话题。那么ERP云部署和本地部署两种模式各有哪些优势

发表于 09-29 20:29 •950次阅读

本地化ChatGPT？Firefly推出基于BM1684X的大语言模型本地部署方案

API的方式来应用，很难本地化部署。随着大模型适用领域的扩展，大模型登陆边缘设备的需求凸显，越来越多的行业需要把大语言模型应用在专业的领域上

发表于 09-09 08:02 •1070次阅读

AI PC风潮来临，2027年达到81%，成为PC市场主流

结合联想联合IDC发布的首个AI PC产业白皮书，我们了解到AI PC不仅仅是传统硬件，更是涵盖了AI模型及应用的综合性设备。AI PC具备本地部署的大模型和个人

发表于 12-13 09:38 •222次阅读

源2.0适配FastChat框架，企业快速本地化部署大模型对话平台

北京2024年2月28日 /美通社/ -- 近日，浪潮信息Yuan2.0大模型与FastChat框架完成全面适配，推出"企业快速本地化部署大模型对话平台"方案。该方案主要面向金融、法律

发表于 02-29 09:57 •296次阅读

搜索历史

如何本地部署大模型

评论

使用CUBEAI部署tflite模型到STM32F0中，模型创建失败怎么解决？

赛思互动：浅析CRM Online与CRM本地部署的区别

介绍在STM32cubeIDE上部署AI模型的系列教程

Pytorch模型如何通过paddlelite部署到嵌入式设备？

在Arm虚拟硬件上部署PP-PicoDet模型

通过Cortex来非常方便的部署PyTorch模型

部署基于嵌入的机器学习模型

如何在MIMXRT1064评估套件上部署tflite模型？

如何使用TensorFlow将神经网络模型部署到移动或嵌入式设备上

P2DR模型中策略部署模型的研究与设计

基于NVIDIA Triton的AI模型高效部署实践

ERP到底该选云部署还是本地部署？两种模式有什么优势？

本地化ChatGPT？Firefly推出基于BM1684X的大语言模型本地部署方案

AI PC风潮来临，2027年达到81%，成为PC市场主流

源2.0适配FastChat框架，企业快速本地化部署大模型对话平台