壁仞科技完成Qwen3旗舰模型适配-电子发烧友网

近日，在高效适配Qwen3系列模型推理后，壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型的训练适配和优化。由此，壁仞科技已实现Qwen3系列模型在国产GPU平台的高效全栈式训练与推理支持。

近日，阿里巴巴通义千问正式发布并开源8款新版Qwen3系列“混合推理模型”。从官方披露的数据来看，旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，与DeepSeek-R1等顶级模型相比，表现出极具竞争力的结果。

壁仞科技在Qwen3发布后数小时内完成了全系列模型的推理支持。受益于前期适配DeepSeek-V3满血版训练的关键技术和成功经验，壁仞科技进一步升级快速实现Qwen3-235B-A22B旗舰版最大参数量模型的训练适配与优化支持。基于壁仞科技自研Megatron-LM-BR训练插件，用户可实现大模型零代码修改下无缝运行，开箱即用。

值得关注的是，Megatron-LM-BR融合了壁仞科技自主知识产权的三大核心技术：虚拟层+动态重排、Async Offload、多维算子融合，实现了适配通用性与训练性能的双重保障。

01业界首创"虚拟层+动态重排"技术

显著降低流水线气泡

阿里开源的Pai-Megatron-Patch发布了Qwen3 MoE 模型的最佳实践，但Qwen3-235B-A22B模型包含94个Transformer Layer，其默认的策略如PP8无法均衡切分Layer导致无法使用Interleave with Virtual Pipeline高效流水线机制，因此造成流水线等待问题。壁仞科技基于Megatron-LM-BR自主研发了"虚拟层+动态重排"技术：通过插入两个虚拟层将总层数扩展至96层，实现均匀切分以支持Interleave with Virtual Pipeline机制；同时对部分Layer进行动态重排，使流水线计算通信负载均衡，从而显著降低流水线气泡率。

02业界首创Async Offload技术

实现精度无损极速预训练

为发挥算力优势和提升显存效率，壁仞科技自主研发Async Offload（异步卸载）机制：将大量激活张量和优化器状态异步迁移至CPU内存，仅使用64张GPU卡即可支持Qwen3-235B-A22B精度无损的全参模型高效预训练；而业界其他已发布案例至少需要256卡，另外其他方案如FP8可以降低显存消耗，但容易对精度产生影响。壁仞科技同时还支持智能重计算策略，动态识别显存瓶颈层，实现"算力换空间"智能决策。通过Async Offload和重计算显存优化双擎技术，壁仞科技实现了算力开销和显存节约的最佳均衡。

03融合算子多维加速体系

充分释放算力潜能

针对GroupedMLP、Permutation、Unpermutation等关键耗时算子，壁仞科技基于其GPU架构特点实现了泛化的图算/通算融合优化。支持多计算操作极致的片上融合、张量处理器与矢量处理器极致异步融合、多级缓存的流水融合、以及计算与通信融合，并进一步引入自动化的Kernel Selection技术，基于硬件计算/通信/访存建模的Cost Model针对不同工作负载自适应选择最优内核实现，将芯片综合能效发挥到极致，同时也确保了通用的泛化能力。在保持精度无损的同时，达成计算效率、硬件利用率与内存带宽的多维度协同优化。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
5272

浏览量
136074
模型

模型

+关注

关注
1

文章
3819

浏览量
52274
壁仞科技

壁仞科技

+关注

关注
1

文章
88

浏览量
4203
DeepSeek

DeepSeek

+关注

关注
2

文章
839

浏览量
3406

原文标题：凭借三大核心技术，壁仞科技完成Qwen3旗舰模型训练适配与优化

文章出处：【微信号：Birentech，微信公众号：壁仞科技Birentech】欢迎添加关注！文章转载请注明出处。

搜索历史

壁仞科技完成Qwen3旗舰模型适配

评论