0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为昇腾深度适配智谱AI全新开源模型GLM-5

华为 来源:华为 2026-02-25 14:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2026年2月12日,智谱AI发布Agentic Engineering时代最好的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA表现,在真实编程场景的使用体验逼近Claude Opus 4.5,更擅长复杂系统工程与长程Agent任务。昇腾一直同步支持智谱GLM系列模型,此次GLM-5模型一经开源发布,昇腾AI基础软硬件即实现0day适配,为该模型的推理部署和训练复现提供全流程支持。

更大基座,更强智能

参数规模扩展:从355B(激活32B)扩展至744B(激活40B),预训练数据从23T提升至28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。

异步强化学习:构建全新的"Slime"框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

稀疏注意力机制:首次集成DeepSeek Sparse Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升Token Efficiency。

Coding能力:对齐Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分别获得77.4和55.7的开源模型最高分数,性能超过Gemini 3.0 Pro。

c0f6a19c-0814-11f1-90a1-92fbcf53809c.png

Agent能力:SOTA级长程任务执行

GLM-5在多个Agent测评基准中取得开源第一,在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)均取得最优表现。

c151371a-0814-11f1-90a1-92fbcf53809c.png

在衡量模型经营能力的Vending Bench 2中,GLM-5获得开源模型中的最佳表现。Vending Bench 2要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5最终账户余额达到4432美元,经营表现接近Claude Opus 4.5,展现了出色的长期规划和资源管理能力。

c1ae2dc6-0814-11f1-90a1-92fbcf53809c.png

这些能力是 Agentic Engineering 的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的 Agentic Ready 基座模型。

基于昇腾实现GLM-5的混合精度高效推理

昇腾支持对GLM模型W4A8混合精度量化,744B超大参数模型基于Atlas 800 A3实现单机部署。

GLM-5为78层decoder-only大模型:前3层为Dense FFN,后75层为MoE(路由专家+共享专家),自带一层MTP(Multi-Token Prediction)用于加速解码过程。针对这一模型结构,昇腾对权重文件采用了W4A8量化,极大减少显存占用,加速Decode阶段的执行速度。同时采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理执行,并支持业界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

权重下载:

https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

推理部署:

https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇腾W4A8量化,极大减少显存占用

采用易扩展的MsModelSlim量化工具,全程轻松量化

按模块区分量化比特与算法:例如Attention与MLP主体用W8A8,MoE专家用W4A8;gate等量化敏感层可按需回退,避免过大精度损失。

c20ee5b2-0814-11f1-90a1-92fbcf53809c.png

一键即可量化:支持GLM-5量化过程“预处理+子图融合+分层线性量化”的完整流水线,安装后一条命令行即可轻松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供丰富量化策略,实现快速精度对齐

旋转Quarot算法:对权重做Hadamard旋转与LayerNorm融合,降低激活异常值、改善后续量化的数值分布。

多种离群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,权重采用SSZ(Smooth Scale Zero)标定,支持缩放因子等超参。

线性层量化策略:对单层Linear做W8A8或W4A8,对激活值做per-token粒度量化、对权重做per-channel粒度量化。

高性能融合算子,加速推理执行

Lightning Indexer融合Kernel

长序列场景下TopK操作会成为瓶颈,通过引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK计算耗时流水掩盖掉其他操作的耗时,从而提升计算流水收益。

Sparse Flash Attention融合Kernel

引入SFA,包含了从完整KVCache里选取TopK相关Token,及计算稀疏Flash Attention操作,可用离散聚合访存耗时掩盖其他操作耗时。

MLAPO 融合Kernel

GLM-5在Sparse Flash Attention预处理阶段将query和KV进行降维操作,并且把query降维后的激活值传递给Indexer模块进行稀疏选择处理。近期将会引入MLAPO通过VV融合(多个Vector算子融合)技术,将前处理过程中的13个小算子直接融合成1个超级大算子。除此之外,在MLAPO算子内部,通过Vector和Cube计算单元的并行处理及流水优化,进一步提升算子整体性能。

基于昇腾实现GLM-5的训练复现

GLM-5采用了DeepSeek Sparse Attention(DSA)架构,针对DSA训练场景,昇腾团队设计并实现了昇腾亲和融合算子,从两方面进行优化:一是优化Lightning Indexer Loss计算阶段的内存占用,二是利用昇腾Cube和Vector单元的流水并行来进一步提升计算效率。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4329

    浏览量

    46430
  • 模型
    +关注

    关注

    1

    文章

    3811

    浏览量

    52257
  • 昇腾
    +关注

    关注

    1

    文章

    186

    浏览量

    7545

原文标题:昇腾0day支持智谱GLM-5,744B模型单机高效推理

文章出处:【微信号:huaweicorp,微信公众号:华为】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    昆仑芯率先完成智新一代旗舰模型GLM-5.1深度支持

    今日,智正式开源新一代旗舰模型GLM-5.1。作为当前全球领先的开源模型之一,
    的头像 发表于 04-09 17:31 1199次阅读

    沐曦股份曦云C系列GPU产品Day 0适配GLM-5.1旗舰模型

    4月8日,智新一代旗舰模型GLM-5.1实现开源。目前,沐曦股份曦云 C 系列 GPU已完成该系列模型Day 0 全量
    的头像 发表于 04-09 11:25 337次阅读

    壁仞科技壁砺166系列产品Day 0适配GLM-5.1旗舰模型

    4月8日,智正式上线并开源新一代旗舰模型GLM-5.1。作为目前全球最强的开源模型
    的头像 发表于 04-09 11:23 364次阅读

    华为云MaaS升级登陆香港 支援GLM-5模型

    华为云宣布,旗下MaaS(Model as a Service,模型即服务)在香港完成全新升级,正式支援GLM-5模型,并预告两款智能体产品
    的头像 发表于 04-05 17:40 2083次阅读

    模型 ai coding 比较

    GLM-5 本地化部署/数据敏感场景 DeepSeek V2 Qwen2开源系列 ai coding 能力 因为 我对 java rust语言比较熟悉,所以想着以下面的提示词 开发项目,看项目的吞吐量
    发表于 02-19 13:43

    模型竞争白热化!智、MiniMax密集发布,DeepSeek V4路线图曝光

    2月11日晚间,智发布新一代旗舰模型GLM-5,智称,GLM-5在Coding与Agent能力上,取得
    的头像 发表于 02-12 15:44 3.2w次阅读
    大<b class='flag-5'>模型</b>竞争白热化!智<b class='flag-5'>谱</b>、MiniMax密集发布,DeepSeek V4路线图曝光

    寒武纪实现对GLM-5的Day 0适配

    2026年2月11日,寒武纪已基于 vLLM 推理框架同步实现对智新开源旗舰模型  GLM-5适配。寒武纪一直高度重视大
    的头像 发表于 02-12 15:07 886次阅读

    AI正式上线并开源全新一代大模型GLM-5

    AI正式上线并开源全新一代大模型GLM-5。作为面向复杂系统工程与长程Agent任务打造的新
    的头像 发表于 02-12 14:40 940次阅读

    曦云C系列GPU Day 0 适配全新一代大模型GLM-5

    AI正式上线并开源全新一代大模型 GLM-5,沐曦股份实现 Day 0
    的头像 发表于 02-12 10:53 1046次阅读
    曦云C系列GPU Day 0 <b class='flag-5'>适配</b>智<b class='flag-5'>谱</b><b class='flag-5'>全新</b>一代大<b class='flag-5'>模型</b><b class='flag-5'>GLM-5</b>

    摩尔线程MTT S5000率先完成对GLM-5适配

    2月11日,智正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程
    的头像 发表于 02-12 10:34 942次阅读
    摩尔线程MTT S5000率先完成对<b class='flag-5'>GLM-5</b>的<b class='flag-5'>适配</b>

    Day-0支持|摩尔线程MTT S5000率先完成对GLM-5适配

    2月11日,智正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程
    发表于 02-12 09:15 1588次阅读
    Day-0支持|摩尔线程MTT S5000率先完成对<b class='flag-5'>GLM-5</b>的<b class='flag-5'>适配</b>

    沐曦曦云C500/C550 GPU产品适配GLM-OCR模型

    今天,智AI正式发布并开源GLM-OCR,以 “小尺寸、高精度” 实现文档解析能力新标杆。沐曦股份曦云C500/C550 GPU充分发挥高生态兼容性、软硬协同能力优势,高效完成与智
    的头像 发表于 02-03 11:36 911次阅读
    沐曦曦云C500/C550 GPU产品<b class='flag-5'>适配</b>智<b class='flag-5'>谱</b><b class='flag-5'>GLM</b>-OCR<b class='flag-5'>模型</b>

    沐曦股份曦云C系列GPU Day 0适配GLM-4.6V多模态大模型

    12月8日智AI发布并开源 GLM-4.6V 系列多模态大模型,沐曦股份曦云C系列GPU完成Day 0
    的头像 发表于 12-17 14:28 816次阅读
    沐曦股份曦云C系列GPU Day 0<b class='flag-5'>适配</b>智<b class='flag-5'>谱</b><b class='flag-5'>GLM</b>-4.6V多模态大<b class='flag-5'>模型</b>

    国产AI芯片真能扛住“算力内卷”?海思的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种算力密度下,散热怎么解决?而且的生态
    发表于 10-27 13:12

    华为CANN与智GLM端侧模型完成适配

    2025年8月5日,在计算产业发展峰会上,华为宣布CANN(Compute Architecture for Neural Networks)技术体系及Mind系列工具链全面
    的头像 发表于 08-11 11:00 2750次阅读