0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪产品与众智FlagOS全面适配

寒武纪开发者 来源:寒武纪开发者 2025-11-17 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大模型的快速发展正推动AI算力需求进入爆发式增长阶段。与此同时,不同应用场景又对AI芯片提出了多样化的挑战:例如在大模型Prefill场景,对算力要求更高,对内存带宽的要求则远低于Decode场景;大模型训练场景则不仅需要高算力与大容量内存,还需要更高的互连带宽与大规模集群组网能力。显然,单一的芯片架构已难以满足多元化的业务需求,为部署不同类型的业务,大模型应用厂商往往需要引入多种不同架构的AI芯片。因此造成的跨芯片架构间业务代码迁移与维护工作,尤其是算子迁移工作,往往耗时数月,成为业务迁移流程中的主要瓶颈。

针对行业痛点,北京智源人工智能研究院依托AI算法优化、芯片架构分析、编译器技术和分布式通信领域的多年积累,联手众多社区伙伴共同启动了众智FlagOS项目,旨在通过统一软件层解耦AI模型与异构硬件,打破不同架构芯片之间的软件生态壁垒,为芯片硬件与上层AI应用之间搭建统一且高效衔接的桥梁,系统性解决“适配难、调优慢、协同弱”三大行业难题,实现“一次开发,处处运行”,致力于为AI产业打造开放协同的创新技术底座。

从2024年初起,寒武纪和智源研究院开始进行FlagGems(基于Triton的高性能通用AI算子库)的联合开发工作,后续进一步拓展到FlagTree(统一多后端的增强版Triton编译器)、FlagCX(统一通信库)、FlagScale(并行训推一体框架)等组件。至2025年9月,寒武纪已经完成对FlagOS下各组件的适配和优化工作。随着智源研究院在“AICC2025暨首届FlagOS开放计算开发者大会”发布了FlagOS v1.5,寒武纪产品可通过众智大模型全栈生态基座支撑更广泛的生态伙伴。

寒武纪与FlagOS的适配与优化主要集中在算子、编译器、分布式通信库和并行框架组件等方面,以下将逐一介绍。

FlagGems

FlagGems是基于Triton语言实现的大模型算子库,目标是在多硬件后端上提供高性能的算子实现,并通过基准测试与自适应调优,持续优化性能表现。项目提供面向不同芯片厂商的后端适配机制、可配置的调优参数体系,以及完整的文档、测试与基准评测入口。

作为FlagOS生态的核心算子组件库,FlagGems以“高复用性、极致性能、架构通用性”为设计理念,通过标准化算子模块体系,大幅降低芯片厂商的算子开发与适配成本。作为首批深度参与FlagGems生态建设的芯片厂商,寒武纪全程投入算子适配与性能调优验证工作,目前已完成206/209个核心算子的全功能支持,平均性能提升达1.9倍,其中绝大部分算子性能达到原生算子的80%以上。寒武纪将持续探索性能优化边界,针对低效能的凹点算子展开专项攻坚,进一步消除性能瓶颈,实现全算子高性能覆盖。

20531166-bfc2-11f0-8c8f-92fbcf53809c.png

FlagTree

FlagTree是一个面向多种AI芯片的开源统一编译器,致力于为多元化的AI硬件生态提供统一的编译、适配和优化能力。项目以Triton生态为基础,兼容现有主流AI芯片后端,统一代码仓库,并快速实现单仓库多后端支持,为上游模型开发者与下游芯片厂商的协作与创新提供了极大便利,可大幅提升开发效率,促进了Triton生态的繁荣和演进。

在寒武纪与FlagTree的深度合作中,寒武纪Triton已成功合并至FlagTree主代码仓库。基于FlagTree编译器与FlagGems算子库,寒武纪针对QWen3-8B大语言模型开展全链路适配验证:将模型中的37个核心算子(涵盖矩阵乘法matmul、层归一化layer_norm、注意力机制attention等关键计算单元)替换为FlagGems提供的Triton优化算子,在寒武纪芯片上进行推理性能测试,整网推理吞吐性能达到原生算子版本的80%,完全满足实时推理场景需求。

这一成果不仅验证了FlagTree+FlagGems技术栈的工程稳定性,更彰显了Triton框架两大核心优势:显著提升开发效率,算子迭代周期从传统的2周大幅缩短至3天;跨架构兼容性,为前沿LLM模型的快速工程化开辟了高效技术路径。

FlagCX

FlagCX是一款面向大规模AI训练的通信中间件,通过对底层硬件差异进行抽象,使开发者能够在异构硬件环境中无缝开展分布式训练,从而有效提升资源利用效率和训练性能。

FlagCX开源后,寒武纪即开始积极参与共建。从FlagCX v0.1.0版本开始,寒武纪就实现了绝大部分通信原语的支持,如今已完成对allreduce、reducescatter、allgather、send、recv等通信操作的全面支持。这种支持并非简单的接口对接,而是通过FlagCX统一适配器模块,实现了FlagCX与寒武纪原生CNCL通信库的高效、深度集成。

FlagCX通过其核心层(FlagCX Core)处理异构通信,同时通过适配器无缝兼容包括寒武纪CNCL在内的各大厂商同构通信库。这意味着,当用户在纯寒武纪MLU集群上进行同构训练时,FlagCX能够直接调用经过深度优化的CNCL库,确保通信性能与直接使用CNCL原生库基本持平,几乎无性能损耗。这种深度集成保障寒武纪用户在享受FlagCX统一接口便利性的同时,同样可以获得原生性能体验。

20ba9a48-bfc2-11f0-8c8f-92fbcf53809c.png

在寒武纪MLU与其他AI芯片的混合环境中,FlagCX成功保障混合训练的模型精度与纯MLU独立训练结果完全一致。更重要的是,在如此复杂的异构环境下,平均单卡吞吐量仍能达到MLU独立训练的99%以上。性能测试表明寒武纪MLU与FlagCX的结合,可以做到精度无损且性能和原生通信库持平的水平,为用户使用异构算力资源进行大模型训推提供了可靠的技术基础。

2123cf90-bfc2-11f0-8c8f-92fbcf53809c.jpg

FlagScale

FlagScale是智源人工智能研究院主导开发的大模型全生命周期工具集,是FlagOS生态的核心组成部分,致力于构建覆盖模型开发、分布式训练与推理部署的统一技术体系。框架融合了Megatron-LM、vLLM、SGLang、Verl等主流开源项目,为大模型提供从训练到推理的一站式解决方案。

在与FlagScale的深度合作中,寒武纪基于MLU硬件平台完成了对Megatron-LM训练框架和vLLM推理框架的全面适配与优化。在训练环节,MLU平台已充分支持智源Megatron体系下的多类主流模型,包括Llama系列、Aquila2系列、Qwen3系列等,并覆盖从模型并行到混合精度的完整训练流程;在推理环节,MLU平台对vLLM框架实现了完备的兼容支持,可高效运行社区开源的多种大语言模型推理任务。

在完成框架级适配后,结合MLU架构特性,寒武纪还围绕通信、算子和内存调度进行了多层次性能优化。通过集成自研CNCL通信库、CNNL高性能算子库及混合精度算子调度机制,可显著提升分布式训练的通信效率与算力利用率;在vLLM推理中,针对 Attention、LayerNorm、GEMM等核心算子进行了指令级与内存访问模式优化,为后续性能提升奠定基础。

凭借在FlagScale生态中的深度集成与架构适配经验,寒武纪MLU平台具备了对未来FlagScale开发或开放的新模型进行快速、即时适配的能力。无论是Megatron-LM体系下的新一代训练模型,还是vLLM推理端的最新开源模型,MLU都能够在框架演进中实现同步更新与性能优化,保持良好的生态兼容性和持续演进能力。

FlagScale的全面适配与持续优化,使寒武纪MLU在大模型训练与推理全链路中具备了统一、高效、可扩展的框架级生态能力。这一进展不仅加速了国产AI硬件在开源大模型生态中的融合,也为大模型的工程化和高性能部署提供了有力支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42408

    浏览量

    303364
  • 寒武纪
    +关注

    关注

    13

    文章

    222

    浏览量

    75131
  • 大模型
    +关注

    关注

    2

    文章

    3895

    浏览量

    5322

原文标题:寒武纪拥抱众智FlagOS生态

文章出处:【微信号:Cambricon_Developer,微信公众号:寒武纪开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智源FlagOS携手海光信息完成DeepSeek V4 Flash全量适配

    近日,北京智源研究院众智FlagOS社区宣布,已完成DeepSeekV4Flash 284B大模型在海光等多款AI芯片上的Day0全量适配与推理部署,同步实现三大关键技术突破,让国产主流算力平台可高效运行新一代千亿级MoE大模型
    的头像 发表于 05-14 17:34 855次阅读

    寒武纪Day 0适配商汤科技日日新SenseNova U1系列大模型

    近日,在商汤科技发布日日新 SenseNova U1 系列原生理解生成统一模型当日,寒武纪已完成对 SenseNova U1 的适配
    的头像 发表于 05-07 12:38 472次阅读

    业绩大爆发!寒武纪Q1财报发布,国产AI芯片的历史性拐点?

    股东的净利润为10.13亿元,同比增长185.04%。此次业绩高速增长的核心源于全球 AI 算力需求持续爆发、国产替代加速落地,以及公司思元系列芯片产品力兑现、客户规模化采购,标志着寒武纪正式迈入“盈利加速期”,也成为国产 AI 芯片从“技术突破”向“商业变现”跨
    的头像 发表于 05-06 09:14 2317次阅读

    寒武纪Day 0适配DeepSeek-V4模型

    2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day 0 适配适配
    的头像 发表于 04-29 10:14 531次阅读

    寒武纪2025年报解读:AI芯片的机遇与隐忧 营收64.97亿,同比暴涨453.21%

    寒武纪此前发布的年报数据显示,在2025年寒武纪营业收入达到64.97亿元,同比增长453.21%。寒武纪在年报中表示,报告期内业绩增长,主要系受益于人工智能行业算力需求的持续攀升,凭借产品
    的头像 发表于 04-22 11:49 2134次阅读

    AI芯片企业赚疯了?寒武纪营收暴涨453.21%,沐曦推理GPU销量大增866.02%

    电子发烧友网报道(文/李弯弯)近期,多家AI芯片企业发布2025年年度报告,包括寒武纪、海光信息、沐曦股份、天数智芯等,多家企业实现营业收入大幅增长。如寒武纪营业收入同比激增453.21%;沐曦股份
    的头像 发表于 04-11 07:31 1.2w次阅读

    寒武纪去年营收增长超400% 净利润20.59亿同比扭亏 寒武纪首个盈利年度

    AI芯片厂商寒武纪传来好消息,寒武纪去年营收增长超400% ;据寒武纪2025年年报显示;25年营收达到64.97亿元,同比增加453.21%,净利润20.59亿元,同比扭亏。该公司迎来上市以来首个
    的头像 发表于 03-13 11:49 1824次阅读

    寒武纪实现对GLM-5的Day 0适配

    2026年2月11日,寒武纪已基于 vLLM 推理框架同步实现对智谱最新开源旗舰模型  GLM-5 的适配寒武纪一直高度重视大模型软件生态建设,借助于成熟的自研 Neuware 软件生态和长期
    的头像 发表于 02-12 15:07 1064次阅读

    寒武纪:预计2025年营收增长超400%,净利润扭亏为盈

    电子发烧友网报道 1月30日,寒武纪发布公告称,经公司财务部门初步测算,预计2025年年度营业收入将达到600,000.00万元至700,000.00万元之间。与上年同期相比,这一数字将增加
    的头像 发表于 01-30 18:15 1w次阅读
    <b class='flag-5'>寒武纪</b>:预计2025年营收增长超400%,净利润扭亏为盈

    寒武纪引领AI芯片软件新生态

    寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整
    的头像 发表于 11-06 11:23 1776次阅读
    <b class='flag-5'>寒武纪</b>引领AI芯片软件新生态

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
    的头像 发表于 10-15 17:54 989次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSee
    的头像 发表于 10-11 17:14 2023次阅读
    <b class='flag-5'>寒武纪</b>成功<b class='flag-5'>适配</b>DeepSeek-V3.2-Exp模型

    寒武纪股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    今日,寒武纪股价突破1200元!8月单月涨幅100%、市值站上5200亿,成为继贵州茅台之后的A股史上第二只千元股。 01 半导体芯片股集体爆发 寒武纪是中国AI芯片设计领军者,其国内云端训练、边缘
    的头像 发表于 08-26 13:54 1290次阅读
    <b class='flag-5'>寒武纪</b>股价破1200大关创历史新高 DeepSeek<b class='flag-5'>适配</b>国产芯片成直接原因

    寒武纪85后创始人陈天石身价超1500亿

    芯片生产和DeepSeek适配国产芯片的利好刺激下,加之还有国外投行高盛宣布将寒武纪-U目标价上调50%至1835元,AI芯片龙头寒武纪股价持续大涨。目前寒武纪的市值超5200亿。而陈
    的头像 发表于 08-26 10:37 7272次阅读

    寒武纪联手阶跃星辰成立模芯生态创新联盟

    近日,阶跃星辰发布了新一代基础大模型Step 3。Step 3兼顾智能与效率,通过模型和系统联合创新,实现了行业前列的推理解码效率,将于7月31日面向全球企业和开发者开源。目前,寒武纪已初步实现对Step 3的支持。
    的头像 发表于 07-31 11:26 1388次阅读