0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

全球TMT 来源:全球TMT 作者:全球TMT 2024-08-25 22:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

北京2024年8月23日/美通社/ -- 近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

源2.0-M32量化版是"源"大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其创新性地提出和采用了"基于注意力机制的门控网络"技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


总之,源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。

源2.0-M32量化版已开源,下载链接如下:

Hugging Face平台下载链接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平台下载链接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4033

    浏览量

    45571
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4969
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【CIE全国RISC-V创新应用大赛】基于 K1 AI CPU 的大模型部署落地

    8GB 物理内存 (且操作系统还要占用约 500MB+)。 结论 :如果直接照搬官方文档下载 Q4 模型, 100% 会因为内存不足(OOM)而无法运行 。 为了满足赛题要求,必须采用 “极限
    发表于 11-27 14:43

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwe
    的头像 发表于 09-06 15:21 924次阅读
    大规模专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    英特尔可变显存技术让32GB内存笔记本流畅运行Qwen 30B大模型

    近日,阿里通义千问发布了两款新版本30B(300亿参数)MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen3-Coder-30B-A3B-Instru
    的头像 发表于 08-14 15:39 1027次阅读

    OpenAI发布2款开源模型

    单个 H100 GPU 上运行 80 GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上
    的头像 发表于 08-06 14:25 883次阅读

    模型推理显存和计算量估计方法研究

    (如全连接层、卷积层等)确定所需的显存大小; (3)将各层显存大小相加,得到模型总的显存需求。 基于神经网络剪枝的
    发表于 07-03 19:43

    中国移动携手华为发布网络运行模型2.0

    近日,在2025 MWC上海期间,由IMT2020(5G)推进组和中国移动主办、华为承办的5G-A网络赋能差异化体验产业圆桌上,中国移动携手华为发布了基于5G-A核心网的网络运行模型2.0
    的头像 发表于 07-01 15:32 851次阅读

    使用 NPU 插件对量化Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-
    发表于 06-25 07:20

    瑞芯微模型量化文件构建

    模型是一张图片输入时,量化文件如上图所示。但是我现在想量化deepprivacy人脸匿名模型,他的输入是四个输入。该模型训练时数据集只标注
    发表于 06-13 09:07

    探索在Arm平台运行Llama 4 Scout模型

    人工智能 (AI) 正在加速发展,也越来越智能化。当今的开源大语言模型不仅功能强大,而且在设计时充分考虑了实际部署的需求,因而具有轻量化和经济高效的特点,可大规模部署到数十亿台设备上。简而言之,对于开发者可能想到的各种情形,当今的开源大语言
    的头像 发表于 05-20 09:54 593次阅读

    将Deepseek移植到i.MX 8MP|93 EVK的步骤

    此共享介绍了如何将 deepseek 移植到i.MX93EVK使用 llama.cpp 的 Yocto BSP 本文档使用的主要测试模型是在 deepseek 模型的基础上进行提炼和量化
    发表于 03-26 06:08

    无法在OVMS上运行来自Meta的大型语言模型 (LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama
    发表于 03-05 08:07

    诚技术M720智能模组成功运行DeepSeek模型

    DeepSeek以“开源+低成本+高性能”三大利器席卷全球AI领域。诚技术研发的基于高通骁龙680(SM6225)平台的智能模组M720,已成功实现DeepSeek模型的稳定
    的头像 发表于 02-24 15:12 1051次阅读

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    飙升至百分之百,满负荷运转,而开发板强大的 NPU 却闲置一旁,无法发挥加速运算优势,这在一定程度上限制了模型运行效率与性能表现。 02-用RKLLM量化部署-挖掘NPU潜力
    发表于 02-14 17:42

    国产视频大模型Vidu 2.0震撼发布

    近日,备受瞩目的国产视频大模型Vidu迎来了2.0版本的正式发布。相较于之前的版本,Vidu 2.0在生成速度上实现了显著提升,从原先的30秒缩短至如今的10秒,整体速度提升了三倍之多
    的头像 发表于 01-16 11:13 2227次阅读

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    ​在人工智能领域,Meta的最新动作再次引起了全球的关注。今天,我们见证了Meta发布Llama 3.3 70B 模型,这是一个开源的人工智能模型,它不仅令人印象深刻,而且在
    的头像 发表于 12-18 16:46 882次阅读
    Meta重磅<b class='flag-5'>发布</b><b class='flag-5'>Llama</b> 3.3 70B:开源AI<b class='flag-5'>模型</b>的新里程碑