0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

壁仞科技支持DeepSeek-V3满血版训练推理

壁仞科技Birentech 来源:壁仞科技Birentech 2025-03-04 14:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现DeepSeek-V3满血版在国产GPU平台的高效全栈式训练与推理,实现国产大模型与国产GPU的深度融合优化,开启国产算力新篇章。

01.首个国产化Megatron-LM

深度适配方案

DeepSeek业界首次提出了Multi-head Latent Attention (MLA) 、Multi-Token Prediction (MTP)、Auxiliary-Loss-Free Load Balancing等新特性,但并未开放训练代码,且Megatron-LM初期也未支持DeepSeek-V3。壁仞科技充分利用自研的Megatron-LM-BR插件、训练框架BR-PyTorch以及高性能加速库suDNN、suBLAS、suCCL等,在Megatron-LM框架上率先支持了这些新特性。针对DeepSeek-V3预训练,壁仞支持四大并行策略(TP/EP/PP/DP)灵活组合,较原生方案(TP1PP16EP64DP2)更容易适应不同规模节点的灵活扩展。实现"Attention-MoE异构TP"技术,大幅降低了Attention显存需求。

02.突破海外GPU高度依赖,

实现关键技术国产替代

DeepSeek基于海外GPU做了大量算法和软硬件协同优化,其实现高度依赖海外GPU微架构、NVLink互连、IB交换机等。基于自研BIREN大算力TCore、高速互连BLink等技术,壁仞科技在DeepSeek开源周之前就已经实现了FlashMLA、DeepGEMM、DeepEP等核心模块类似功能和优化技术,并进行了软硬协同深度优化,端到端打通了训练全流程,实现了关键技术的国产自主可控。

03.业界首创显存优化双擎技术,

实现满血版高效训练

DeepSeek-V3满血版有671B参数,官方推荐方案至少需要1024个H800(TP1PP16EP64DP1)才能进行全参训练。为了应对显存挑战,壁仞科技自主创新Async Offload、GPU-based Chunk Optimizer等精度无损的显存优化技术,将大量激活值及优化器状态异步卸载至CPU内存,实现仅需4096GB显存(8-16台单机8卡GPU机器)即可支持DeepSeek-V3全参高效训练。与此同时,通过巧妙地重叠计算与通信,上述显存优化技术几乎没有带来训练性能的损失。另外支持智能重计算策略,自动识别显存瓶颈层,实现"算力换空间"智能决策。通过Async Offload和重计算显存优化双擎技术,实现算力开销和显存节约的最佳均衡。

04.业界首创"虚拟层+动态重排"技术,

大幅降低流水线气泡

DeepSeek的DualPipe技术能掩盖部分传输开销及大幅降低流水线气泡,但DualPipe需要GPU微架构层面对计算单元进行精确控制才能实现计算和通信的高效并发,相比1F1B,DualPipe需要增加1倍的模型权重及部分激活值显存消耗。相比1F1B,Interleave with Virtual Pipeline技术可以在不增加显存消耗的情况下大幅降低流水线气泡,但是要求每个PP Stage的layer数是均衡的。DeepSeek-V3有61个Layer,PP8/PP16都无法均衡切分Layer导致无法使能Virtual Pipeline,壁仞科技业界首创"虚拟层+动态重排"技术,通过插入3个虚拟层实现64层均匀切分,重排部分层实现负载均衡,避免流水线等待,最终实现高效PP并行。

05.融合算子加速体系,

释放国产GPU性能潜力

针对DeepSeek-V3的Linear、Attention、YaRN RoPE、Dispatch、Combine等关键耗时算子,壁仞科技基于其GPU架构特点做了极致的图算/通算融合优化,从多计算操作极致的片上融合,张量处理器与矢量处理器极致异步融合,多级缓存的流水融合,到计算与通信融合,并进一步引入自动化的Kernel Selection技术,基于硬件计算/通信/访存建模的CostModel针对不同工作负载自适应选择最优内核实现,将芯片综合能效发挥到极致。

06.整合关键技术模块,实现DeepSeek-

V3满血版端到端高效预训练

壁仞科技壁砺TM系列产品如壁砺TM106M、106B等产品具备高算力、高能效、高通用性等优势,训推一体,已在多个行业完成大规模商业化落地,其中在中国电信落地了国内少有的真正实现市场化建设和运营的国产千卡集群,连续训练30天不中断,断点续训小于5分钟,支持客户完成大模型训练,稳定性、性能、精度各项指标达到客户要求。此次基于壁砺TM106系列产品,壁仞科技快速高效完成了DeepSeek-V3各项关键技术落地,基于RedPajama-Data-1T-Sample主流开源数据集实现了端到端高效预训练,Loss收敛正常。

07.实现W4A16细粒度量化技术,支持

DeepSeek-V3/R1满血版高效推理

壁仞科技在此前已经支持了BF16、INT8等版本的DeepSeek-V3/R1满血版推理,此次新提出W4A16等细粒度混合量化技术,进一步降低了处理延时,提升了总吞吐。另外针对DeepSeek官方最新发布的推理系统参考架构,壁仞科技已初步实现了分布式EP以及PD分离架构,将进一步提供更高性价比的推理集群解决方案。

08.One More Thing

业界首创大模型弹性训推一体架构,

实现集群最佳利用效率

DeepSeek 开放周最后一天公布了One More Thing-DeepSeek-V3/R1推理系统参考方案,为行业展示了如何实现高性能、低成本的分布式推理集群。其提到“由于白天的服务负荷高,晚上的服务负荷低,因此我们实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练”,在计算推理成本时,其将释放给训练使用的资源排除在外,因此降低了推理成本(大概20%= 100% - 226节点/278节点)。但如何实现训练和推理任务高效共享资源呢?

此前在落地千卡集群时,壁仞科技已业界首创了大模型3D并行训练任务自动弹性伸缩机制,可以在大模型训练任务不中断的情况下,根据集群的资源情况自动进行在线扩缩容。根据业务流量情况自动进行削峰填谷,对大模型推理服务进行实例缩容、扩容,相应的训练任务则自动进行扩容、缩容。通过这套弹性训推一体架构,可以将集群资源的使用率保持在近100%,大幅降低资源空闲浪费成本。

壁仞科技打造了软硬一体、全栈优化、异构协同、开源开放的大规模智算集群全栈解决方案,凭借其技术创新能力和商业化落地成果,先后获得环球时报新质生产力产业实践“人工智能”示范标杆等多个权威技术奖项,技术方案和产品已在运营商、智算中心、行业AI、金融、电力等多个行业规模落地。此次通过八大核心技术赋能DeepSeek-V3满血版全栈式训练推理,进一步提升壁仞科技软硬一体、开箱即用的产品实力,支持客户利用好DeepSeek的新质生产力实现业务创新落地!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5287

    浏览量

    136109
  • 开源
    +关注

    关注

    3

    文章

    4374

    浏览量

    46475
  • 壁仞科技
    +关注

    关注

    1

    文章

    91

    浏览量

    4217
  • DeepSeek
    +关注

    关注

    2

    文章

    856

    浏览量

    3416

原文标题:【智算新突破】壁仞科技八大核心技术赋能DeepSeek-V3满血版全栈式训练和推理

文章出处:【微信号:Birentech,微信公众号:壁仞科技Birentech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    科技砺166系列GPU产品率先支持DeepSeek-V4模型

    4月24日,深度求索团队宣布全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。依托成熟的BIRENSUPA软件栈与自研GPU全栈智能体“AIModelMaster”,科技快速
    的头像 发表于 04-28 14:04 754次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技<b class='flag-5'>壁</b>砺166系列GPU产品率先<b class='flag-5'>支持</b><b class='flag-5'>DeepSeek-V</b>4模型

    科技砺166系列GPU产品率先支持腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元Hy3 preview语言模型发布并开源。依托全栈自研技术优势,科技基于vLLM主流开源框架实现Hy3 preview模型的Day0适配及
    的头像 发表于 04-28 14:01 764次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技<b class='flag-5'>壁</b>砺166系列GPU产品率先<b class='flag-5'>支持</b>腾讯混元Hy<b class='flag-5'>3</b> preview语言模型

    科技砺166系列GPU产品率先支持Kimi K2.6模型

    4月20日晚,月之暗面正式发布并开源Kimi K2.6模型,带来行业领先(state-of-the-art)的代码、长程任务执行和Agent集群能力。科技(06082.HK)旗舰通用GPU产品
    的头像 发表于 04-23 16:30 1514次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技<b class='flag-5'>壁</b>砺166系列GPU产品率先<b class='flag-5'>支持</b>Kimi K2.6模型

    科技光速支持阿里Qwen3.6-35B-A3B大模型

    4月16日晚,阿里巴巴通义实验室正式宣布全量开源Qwen3.6-35B-A3B大模型。该模型为混合专家(MoE)模型,总参数量为350亿,激活参数仅30亿。科技(06082.HK)凭借旗舰GPU
    的头像 发表于 04-20 17:50 1600次阅读

    科技与上海人工智能实验室合作推出全新DeepLink混推方案

    近日,上海人工智能实验室推出DeepLink多元算力混合推理加速方案(以下简称“DeepLink混推方案”),首次实现对科技等四家国产算力厂商多款芯片的混合调度与协同推理
    的头像 发表于 03-10 16:38 1306次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技与上海人工智能实验室合作推出全新DeepLink混推方案

    科技砺166M产品适配模思智能MOSS-TTS Family模型

    MOSS-TTS模型的高性能推理部署。作为国内领军的通用GPU芯片企业,科技成为首家完成MOSS-TTS模型适配的国产算力厂商。
    的头像 发表于 02-11 16:54 1465次阅读

    上海市闵行区领导走访调研科技

    1月22日,上海市闵行区委书记陆方舟走访调研科技,对公司成功上市表示祝贺,并与科技创始人、董事长兼CEO张文展开深入交流,全面了解企业研发实力、国产算力生态建设以及未来机遇与挑
    的头像 发表于 01-26 09:33 589次阅读

    科技在香港联合交易所挂牌上市

    1月2日,科技在香港联合交易所挂牌上市,股票代码为06082.HK。作为港股2026年首只上市新股,科技发行价19.60港元,募资规模55.83亿港元。此次成功登陆港交所,
    的头像 发表于 01-05 15:45 2346次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解Deepseek-R1 、Deepseek-V
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    剖析 DeepSeek-V3 的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型(MoE)的起源与发展,到 DeepSeek-
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练推理方法上实现创新,在性能和工程效率上带来了显著提升,并在成本效率方面
    的头像 发表于 07-03 14:37 1456次阅读
    Arm Neoverse N2平台实现<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>满血</b>版部署

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后
    发表于 06-09 14:38

    科技完成Qwen3旗舰模型适配

    近日,在高效适配Qwen3系列模型推理后,科技宣布完成旗舰版Qwen3-235B-A22B模型的训练
    的头像 发表于 05-16 16:23 1209次阅读