0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简单三步使用OpenVINO™搞定ChatGLM3的本地部署

英特尔物联网 来源:OpenVINO 中文社区 2024-04-03 18:18 次阅读

工具介绍

英特尔OpenVINO 工具套件是一款开源AI推理优化部署的工具套件,可帮助开发人员和企业加速生成式人工智能 (AIGC)、大语言模型、计算机视觉和自然语言处理等 AI 工作负载,简化深度学习推理的开发和部署,便于实现从边缘到云的跨英特尔 平台的异构执行。

ChatGLM3是智谱AI和清华大学KEG实验室联合发布的对话预训练模型。ChatGLM3-6B是ChatGLM3系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B引入了以下新特性:

1

更强大的基础模型:

ChatGLM3-6B的基础模型ChatGLM3-6B-Base采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base具有在10B以下的预训练模型中领先的性能。

2

更完整的功能支持:

ChatGLM3-6B采用了全新设计的Prompt格式,除正常的多轮对话外,同时原生支持工具调用 (Function Call)、代码执行 (Code Interpreter) 和Agent任务等复杂场景。

3

更全面的开源序列:

除了对话模型ChatGLM3-6B外,还开源了基础模型ChatGLM-6B-Base、长文本对话模型ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

8c1a646e-f19a-11ee-a297-92fbcf53809c.png

图:基于Optimum-intel与OpenVINO部署生成式AI模型流程

英特尔为开发者提供了快速部署ChatGLM3-6B的方案支持。开发者只需要在GitHub上克隆示例仓库,进行环境配置,并将Hugging Face模型转换为OpenVINO IR模型,即可进行模型推理。由于大部分步骤都可以自动完成,因此开发者只需要简单的工作便能完成部署,目前该仓库也被收录在GhatGLM3的官方仓库和魔搭社区Model Card中,接下来让我们一起看下具体的步骤和方法:

示例仓库:

https://github.com/OpenVINO-dev-contest/chatglm3.openvino

官方仓库:

https://github.com/THUDM/ChatGLM3?tab=readme-ov-file#openvino-demo

Model Card:

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/summary#

1

模型转换

当你按仓库中的README文档完成集成环境配置后,可以直接通过以下命令运行模型转换脚本:

python3 convert.py --model_id THUDM/chatglm3-6b –output {your_path}/chatglm3-6b-ov

该脚本首先会利用Transformers库从Hugging Face的model hub中下载并加载原始模型的PyTorch对象,如果开发者在这个过程中无法访问Hugging Face的model hub,也可以通过配置环境变量的方式,将模型下载地址更换为镜像网站,并将convert.py脚本的model_id参数配置为本地路径,具体方法如下:

$env:HF_ENDPOINT = https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/chatglm3-6b --local-dir {your_path}/chatglm3-6b
python3 convert.py --model_id {your_path}/chatglm3-6b --output {your_path}/chatglm3-6b-ov

当获取PyTorch的模型对象后,该脚本会利用OpenVINO的PyTorch frontend进行模型格式的转换,执行完毕后,你将获取一个由.xml和.bin文件所构成的OpenVINO IR模型文件,该模型默认以FP16精度保存。

2

权重量化

该步骤为可选项,开发者可以通过以下脚本,将生成的OpenVINO模型通过权重量化策略,进一步地压缩为4-bits或者是8-bits的精度,以获取更低的推理延时及系统资源占用。

python3 quantize.py --model_path {your_path}/chatglm3-6b-ov --precision int4 --output {your_path}/chatglm3-6b-ov-int4

执行完毕后,你将获得经过压缩后的IR模型文件,以INT4对称量化为例,该压缩后的模型文件的整体容量大约为4GB左右。

8c3150b6-f19a-11ee-a297-92fbcf53809c.png

图:量化后的OpenVINO模型文件

同时在量化结束后,亦会在终端上打印模型的量化比例,如下图所示。

8c587254-f19a-11ee-a297-92fbcf53809c.png

图:量化比例输出

由于OpenVINO NNCF工具的权重压缩策略只针对于大语言模型中的Embedding和Linear这两种算子,所以该表格只会统计这两类算子的量化比例。其中ratio-defining parameter是指我们提前通过接口预设的混合精度比例,也就是21%权重以INT8表示,79%以INT4表示,这也是考虑到量化对ChatGLM3模型准确度的影响,事先评估得到的配置参数,开发者亦可以通过这个示例搜索出适合其他模型的量化参数。此外鉴于第一层Embedding layer和模型最后一层操作对于输出准确度的影响,NNCF默认会将他们以INT8表示,这也是为何all parameters中显示的混合精度比例会有所不同。当然开发者也可以通过nncf.compress_weights接口中设置all_layers=True,开关闭该默认策略。

示例:

https://github.com/openvinotoolkit/nncf/tree/develop/examples/llm_compression/openvino/tiny_llama_find_hyperparams

3

模型转换

最后一步就是模型部署了,这里展示的是一个Chatbot聊天机器人的示例,这也是LLM应用中最普遍,也是最基础的pipeline,而OpenVINO可以通过Optimum-intel工具为桥梁,复用Transformers库中预置的pipeline,因此在这个脚本中我们会对ChatGLM3模型再做一次封装,以继承并改写OVModelForCausalLM类中的方法,实现对于Optimum-intel工具的集成和适配。以下为该脚本的运行方式:

python3 chat.py --model_path {your_path}/chatglm3-6b-ov-int4 --max_sequence_length 4096 --device CPU

如果开发者的设备中包含英特尔的GPU产品,例如Intel ARC系列集成显卡或是独立显卡,可以在这个命令中将device参数改为GPU,以激活更强大的模型推理能力。

在终端里运行该脚本后,会生成一个简易聊天对话界面,接下来你就可以验证它的效果和性能了。

总结

通过模型转换、量化、部署这三个步骤,我们可以轻松实现在本地PC上部署ChatGLM3-6b大语言模型,经测试该模型可以流畅运行在最新的Intel Core Ultra异构平台及至强CPU平台上,作为众多AI agent和RAG等创新应用的核心基石,大语言模型的本地部署能力将充分帮助开发者们打造更安全,更高效的AI解决方案。


审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1777

    文章

    43920

    浏览量

    230743
  • 计算机视觉
    +关注

    关注

    8

    文章

    1601

    浏览量

    45640
  • pytorch
    +关注

    关注

    2

    文章

    764

    浏览量

    12837
  • OpenVINO
    +关注

    关注

    0

    文章

    59

    浏览量

    91

原文标题:简单三步使用OpenVINO™ 搞定ChatGLM3的本地部署 | 开发者实战

文章出处:【微信号:英特尔物联网,微信公众号:英特尔物联网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    简单两步使用OpenVINO搞定Qwen2的量化与部署任务

    英特尔 OpenVINO™ 工具套件是一款开源 AI 推理优化部署的工具套件,可帮助开发人员和企业加速生成式人工智能 (AIGC)、大语言模型、计算机视觉和自然语言处理等 AI 工作负载,简化深度学习推理的开发和部署,便于实现从
    的头像 发表于 04-26 09:39 175次阅读
    <b class='flag-5'>简单</b>两步使用<b class='flag-5'>OpenVINO</b>™<b class='flag-5'>搞定</b>Qwen2的量化与<b class='flag-5'>部署</b>任务

    英特尔集成显卡+ChatGLM3大语言模型的企业本地AI知识库部署

    在当今的企业环境中,信息的快速获取和处理对于企业的成功至关重要。为了满足这一需求,我们可以将RAG技术与企业本地知识库相结合,以提供实时的、自动生成的信息处理和决策支持。
    的头像 发表于 03-29 11:07 258次阅读
    英特尔集成显卡+<b class='flag-5'>ChatGLM3</b>大语言模型的企业<b class='flag-5'>本地</b>AI知识库<b class='flag-5'>部署</b>

    三步完成在英特尔独立显卡上量化和部署ChatGLM3-6B模型

    ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在填写问卷进行登记后亦允许免费商业使用。
    的头像 发表于 01-11 18:04 1012次阅读
    <b class='flag-5'>三步</b>完成在英特尔独立显卡上量化和<b class='flag-5'>部署</b><b class='flag-5'>ChatGLM</b>3-6B模型

    ChatGLM3-6B在CPU上的INT4量化和部署

    ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在填写问卷进行登记后亦允许免费商业使用。
    的头像 发表于 01-05 09:36 566次阅读
    <b class='flag-5'>ChatGLM</b>3-6B在CPU上的INT4量化和<b class='flag-5'>部署</b>

    【爱芯派 Pro 开发板试用体验】在爱芯派部署ChatGLM3(一)

    ChatGLM3是由智谱AI和清华大学KEG实验室联合发布的第代大型语言模型,是基于GLM-130B的对话微调版本,国内首个全线对标OpenAI产品线,官网:https://chatglm
    发表于 12-17 22:54

    NNCF压缩与量化YOLOv8模型与OpenVINO部署测试

    OpenVINO2023版本衍生出了一个新支持工具包NNCF(Neural Network Compression Framework – 神经网络压缩框架),通过对OpenVINO IR格式模型的压缩与量化更好的提升模型在OpenVI
    的头像 发表于 11-20 10:46 902次阅读
    NNCF压缩与量化YOLOv8模型与<b class='flag-5'>OpenVINO</b><b class='flag-5'>部署</b>测试

    如何使用OpenVINO C++ API部署FastSAM模型

    象的位置和边界。本文将介绍如何使用 OpenVINO C++ API 部署 FastSAM 模型,以实现快速高效的语义分割。在前文中我们发表了《基于 OpenVINO Python API
    的头像 发表于 11-17 09:53 452次阅读
    如何使用<b class='flag-5'>OpenVINO</b> C++ API<b class='flag-5'>部署</b>FastSAM模型

    基于OpenVINO Python API部署RT-DETR模型

    平台实现 OpenVINO 部署 RT-DETR 模型实现深度学习推理加速, 在本文中,我们将首先介绍基于 OpenVINO Python API 部署 RT-DETR 模型。
    的头像 发表于 10-20 11:15 549次阅读
    基于<b class='flag-5'>OpenVINO</b> Python API<b class='flag-5'>部署</b>RT-DETR模型

    如何本地部署大模型

    近期,openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp两款应用,以支持用户在本地部署和使用免费的开源大语言模型,无需联网也能使用!
    的头像 发表于 10-18 11:48 1705次阅读
    如何<b class='flag-5'>本地</b><b class='flag-5'>部署</b>大模型

    探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商业落地

    1.背景介绍在2023年7月时我们已通过静态设计方案完成了ChatGLM2-6B在单颗BM1684X上的部署工作,量化模式F16,模型大小12GB,平均速度约为3token/s,详见《算丰技术揭秘
    的头像 发表于 10-10 10:18 2206次阅读
    探索<b class='flag-5'>ChatGLM</b>2在算能BM1684X上INT8量化<b class='flag-5'>部署</b>,加速大模型商业落地

    基于ChatGLM2和OpenVINO™打造中文聊天助手

    ChatGLM 是由清华大学团队开发的是一个开源的、支持中英双语的类 ChatGPT 大语言模型,它能生成相当符合人类偏好的回答, ChatGLM2 是开源中英双语对话模型 ChatGLM 的第二代版本,在保留了初代模型对话流
    的头像 发表于 08-24 17:13 992次阅读
    基于<b class='flag-5'>ChatGLM</b>2和<b class='flag-5'>OpenVINO</b>™打造中文聊天助手

    一个简单模型就让ChatGLM性能大幅提升 | 最“in”大模型

    引言 自大语言模型 (LLM) 成为热点话题以来,涌现了一大批中文大语言模型并在优化平台中得到了积极部署ChatGLM 正是广受好评的主流中文 LLM 之一。 然而,由于 ChatGLM 模型
    的头像 发表于 08-19 11:15 497次阅读
    一个<b class='flag-5'>简单</b>模型就让<b class='flag-5'>ChatGLM</b>性能大幅提升 | 最“in”大模型

    ChatGLM2-6B解析与TPU部署

    ChatGLM2-6B解析与TPU部署
    的头像 发表于 08-18 11:28 525次阅读
    <b class='flag-5'>ChatGLM</b>2-6B解析与TPU<b class='flag-5'>部署</b>

    为什么无法通过Heroku部署OpenVINO™工具套件?

    无法通过 Heroku 部署OpenVINO™工具套件: Importeror:libpython3.9.so.1.0:无法打开共享对象文件:无此类文件或目录
    发表于 08-14 08:58

    ChatGLM-6B的局限和不足

    基于ChatGLM-6B 部署本地私有化ChatGPT 一、开源模型 1、ChatGLM-6B介绍 清华大学知识工程 (KEG) 实验室和智谱AI公司与于2023年共同训练的语言模型
    的头像 发表于 06-25 11:50 4791次阅读
    <b class='flag-5'>ChatGLM</b>-6B的局限和不足