0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

壁仞科技完成Qwen3旗舰模型适配

壁仞科技Birentech 来源:壁仞科技Birentech 2025-05-16 16:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,在高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型的训练适配和优化。由此,壁仞科技已实现Qwen3系列模型在国产GPU平台的高效全栈式训练与推理支持。

近日,阿里巴巴通义千问正式发布并开源8款新版Qwen3系列“混合推理模型”。从官方披露的数据来看,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1等顶级模型相比,表现出极具竞争力的结果。

壁仞科技在Qwen3发布后数小时内完成了全系列模型的推理支持。受益于前期适配DeepSeek-V3满血版训练的关键技术和成功经验,壁仞科技进一步升级快速实现Qwen3-235B-A22B旗舰版最大参数量模型的训练适配与优化支持。基于壁仞科技自研Megatron-LM-BR训练插件,用户可实现大模型零代码修改下无缝运行,开箱即用。

值得关注的是,Megatron-LM-BR融合了壁仞科技自主知识产权的三大核心技术:虚拟层+动态重排、Async Offload、多维算子融合,实现了适配通用性与训练性能的双重保障。

01业界首创"虚拟层+动态重排"技术

显著降低流水线气泡

阿里开源的Pai-Megatron-Patch发布了Qwen3 MoE 模型的最佳实践,但Qwen3-235B-A22B模型包含94个Transformer Layer,其默认的策略如PP8无法均衡切分Layer导致无法使用Interleave with Virtual Pipeline高效流水线机制,因此造成流水线等待问题。壁仞科技基于Megatron-LM-BR自主研发了"虚拟层+动态重排"技术:通过插入两个虚拟层将总层数扩展至96层,实现均匀切分以支持Interleave with Virtual Pipeline机制;同时对部分Layer进行动态重排,使流水线计算通信负载均衡,从而显著降低流水线气泡率。

02业界首创Async Offload技术

实现精度无损极速预训练

为发挥算力优势和提升显存效率,壁仞科技自主研发Async Offload(异步卸载)机制:将大量激活张量和优化器状态异步迁移至CPU内存,仅使用64张GPU卡即可支持Qwen3-235B-A22B精度无损的全参模型高效预训练;而业界其他已发布案例至少需要256卡,另外其他方案如FP8可以降低显存消耗,但容易对精度产生影响。壁仞科技同时还支持智能重计算策略,动态识别显存瓶颈层,实现"算力换空间"智能决策。通过Async Offload和重计算显存优化双擎技术,壁仞科技实现了算力开销和显存节约的最佳均衡。

03融合算子多维加速体系

充分释放算力潜能

针对GroupedMLP、Permutation、Unpermutation等关键耗时算子,壁仞科技基于其GPU架构特点实现了泛化的图算/通算融合优化。支持多计算操作极致的片上融合、张量处理器与矢量处理器极致异步融合、多级缓存的流水融合、以及计算与通信融合,并进一步引入自动化的Kernel Selection技术,基于硬件计算/通信/访存建模的Cost Model针对不同工作负载自适应选择最优内核实现,将芯片综合能效发挥到极致,同时也确保了通用的泛化能力。在保持精度无损的同时,达成计算效率、硬件利用率与内存带宽的多维度协同优化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134455
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712
  • 壁仞科技
    +关注

    关注

    1

    文章

    72

    浏览量

    3557
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2811

原文标题:凭借三大核心技术,壁仞科技完成Qwen3旗舰模型训练适配与优化

文章出处:【微信号:Birentech,微信公众号:壁仞科技Birentech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DFRobot亮相贸泽电子elexcon 2025展台,展示与Qwen3模型融合的AI应用

    8月26日,elexcon2025深圳国际电子展在深圳会展中心隆重开幕。在全球知名新品引入(NPI)代理商贸泽电子(Mouser Electronics) 展台(1号馆1Q30),DFRobot展示了其LattePanda Sigma单板计算机与Qwen3大语言模型的融合
    的头像 发表于 08-30 10:51 820次阅读

    广和通加速通义千问Qwen3在端侧全面落地

    6月,广和通宣布:率先完成通义千问Qwen3系列混合推理模型在高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬件加速算法,成功突破
    的头像 发表于 06-25 15:35 775次阅读

    Arm CPU适配通义千问Qwen3系列模型

    近日,阿里巴巴开源了新一代通义千问模型 Qwen3,Arm 率先成为首批成功适配模型的计算平台厂商。与此同时,Arm 面向人工智能 (AI) 框架开发者的开源计算内核 Arm Kle
    的头像 发表于 05-12 16:37 1098次阅读

    Intel OpenVINO™ Day0 实现阿里通义 Qwen3 快速部署

    本文将以 Qwen3-8B 为例,介绍如何利用 OpenVINO 的 Python API 在英特尔平台(GPU, NPU)Qwen3 系列模型
    的头像 发表于 05-11 11:36 1364次阅读
    Intel OpenVINO™ Day0 实现阿里通义 <b class='flag-5'>Qwen3</b> 快速部署

    NVIDIA RTX 5880 Ada与Qwen3系列模型实测报告

    近日,阿里巴巴通义千问团队正式推出新一代开源大语言模型——Qwen3 系列,该系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合专家模型,参数规模覆盖 0.6B 至 235
    的头像 发表于 05-09 15:05 3786次阅读
    NVIDIA RTX 5880 Ada与<b class='flag-5'>Qwen3</b>系列<b class='flag-5'>模型</b>实测报告

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE
    的头像 发表于 05-08 11:45 2586次阅读
    NVIDIA使用<b class='flag-5'>Qwen3</b>系列<b class='flag-5'>模型</b>的最佳实践

    MediaTek天玑9400率先完成阿里Qwen3模型部署

    通义大模型团队在天玑 9400 旗舰移动平台上率先完成 Qwen3(千问 3)的端侧部署。未来,搭载天玑 9400 移动平台的设备可充分发挥
    的头像 发表于 05-08 10:11 941次阅读

    后摩智能NPU适配通义千问Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列开源混合推理模型。用时不到1天,后摩智能自研NPU迅速实现Qwen3 系列模型Qwen3 0.6B-1
    的头像 发表于 05-07 16:46 1126次阅读

    寒武纪率先支持Qwen3全系列模型

    近日,阿里Qwen团队一口气上新8大模型Qwen3正式发布并全部开源。
    的头像 发表于 05-07 15:51 868次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队在模型发布当天,率先完成Qwen3全系列
    的头像 发表于 05-07 15:24 838次阅读

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式发布新一代Qwen大语言模型系列(Qwen3Qwen3-MoE),在模型规模与性能上实现多方面升级。openEuler社
    的头像 发表于 05-07 14:44 1457次阅读
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式发布并全部开源8款混合推理模型。作为Qwen系列中的最新一代大型语言模型Qwen3在推理、指令遵循、工具调用、多语言能
    的头像 发表于 05-06 15:17 950次阅读

    几B都有!BM1684X一键适配全系列Qwen3

    Qwen3发布,大小尺寸通吃Qwen3一发布,登顶开源大模型排行榜!235B、32B、8B、4B、1.7B云边端全尺寸模型,BF16和FP8两种精度,一次性发布,无论云端大卡还是边缘A
    的头像 发表于 04-30 18:37 1165次阅读
    几B都有!BM1684X一键<b class='flag-5'>适配</b>全系列<b class='flag-5'>Qwen3</b>

    科技完成阿里巴巴通义千问Qwen3全系列模型支持

    4月29日,阿里巴巴通义千问发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,
    的头像 发表于 04-30 15:19 1354次阅读

    科技推出阿里QWQ-32B大模型一体机

    能力等关键测试中展现出卓越性能。 作为国产AI算力重要推动力量,科技不断测试与更新适配最先进大模型,联合生态合作伙伴共同推出QWQ-32B大模型
    的头像 发表于 03-10 09:05 1631次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技推出阿里QWQ-32B大<b class='flag-5'>模型</b>一体机