0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪产品与众智FlagOS全面适配

寒武纪开发者 来源:寒武纪开发者 2025-11-17 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大模型的快速发展正推动AI算力需求进入爆发式增长阶段。与此同时,不同应用场景又对AI芯片提出了多样化的挑战:例如在大模型Prefill场景,对算力要求更高,对内存带宽的要求则远低于Decode场景;大模型训练场景则不仅需要高算力与大容量内存,还需要更高的互连带宽与大规模集群组网能力。显然,单一的芯片架构已难以满足多元化的业务需求,为部署不同类型的业务,大模型应用厂商往往需要引入多种不同架构的AI芯片。因此造成的跨芯片架构间业务代码迁移与维护工作,尤其是算子迁移工作,往往耗时数月,成为业务迁移流程中的主要瓶颈。

针对行业痛点,北京智源人工智能研究院依托AI算法优化、芯片架构分析、编译器技术和分布式通信领域的多年积累,联手众多社区伙伴共同启动了众智FlagOS项目,旨在通过统一软件层解耦AI模型与异构硬件,打破不同架构芯片之间的软件生态壁垒,为芯片硬件与上层AI应用之间搭建统一且高效衔接的桥梁,系统性解决“适配难、调优慢、协同弱”三大行业难题,实现“一次开发,处处运行”,致力于为AI产业打造开放协同的创新技术底座。

从2024年初起,寒武纪和智源研究院开始进行FlagGems(基于Triton的高性能通用AI算子库)的联合开发工作,后续进一步拓展到FlagTree(统一多后端的增强版Triton编译器)、FlagCX(统一通信库)、FlagScale(并行训推一体框架)等组件。至2025年9月,寒武纪已经完成对FlagOS下各组件的适配和优化工作。随着智源研究院在“AICC2025暨首届FlagOS开放计算开发者大会”发布了FlagOS v1.5,寒武纪产品可通过众智大模型全栈生态基座支撑更广泛的生态伙伴。

寒武纪与FlagOS的适配与优化主要集中在算子、编译器、分布式通信库和并行框架组件等方面,以下将逐一介绍。

FlagGems

FlagGems是基于Triton语言实现的大模型算子库,目标是在多硬件后端上提供高性能的算子实现,并通过基准测试与自适应调优,持续优化性能表现。项目提供面向不同芯片厂商的后端适配机制、可配置的调优参数体系,以及完整的文档、测试与基准评测入口。

作为FlagOS生态的核心算子组件库,FlagGems以“高复用性、极致性能、架构通用性”为设计理念,通过标准化算子模块体系,大幅降低芯片厂商的算子开发与适配成本。作为首批深度参与FlagGems生态建设的芯片厂商,寒武纪全程投入算子适配与性能调优验证工作,目前已完成206/209个核心算子的全功能支持,平均性能提升达1.9倍,其中绝大部分算子性能达到原生算子的80%以上。寒武纪将持续探索性能优化边界,针对低效能的凹点算子展开专项攻坚,进一步消除性能瓶颈,实现全算子高性能覆盖。

20531166-bfc2-11f0-8c8f-92fbcf53809c.png

FlagTree

FlagTree是一个面向多种AI芯片的开源统一编译器,致力于为多元化的AI硬件生态提供统一的编译、适配和优化能力。项目以Triton生态为基础,兼容现有主流AI芯片后端,统一代码仓库,并快速实现单仓库多后端支持,为上游模型开发者与下游芯片厂商的协作与创新提供了极大便利,可大幅提升开发效率,促进了Triton生态的繁荣和演进。

在寒武纪与FlagTree的深度合作中,寒武纪Triton已成功合并至FlagTree主代码仓库。基于FlagTree编译器与FlagGems算子库,寒武纪针对QWen3-8B大语言模型开展全链路适配验证:将模型中的37个核心算子(涵盖矩阵乘法matmul、层归一化layer_norm、注意力机制attention等关键计算单元)替换为FlagGems提供的Triton优化算子,在寒武纪芯片上进行推理性能测试,整网推理吞吐性能达到原生算子版本的80%,完全满足实时推理场景需求。

这一成果不仅验证了FlagTree+FlagGems技术栈的工程稳定性,更彰显了Triton框架两大核心优势:显著提升开发效率,算子迭代周期从传统的2周大幅缩短至3天;跨架构兼容性,为前沿LLM模型的快速工程化开辟了高效技术路径。

FlagCX

FlagCX是一款面向大规模AI训练的通信中间件,通过对底层硬件差异进行抽象,使开发者能够在异构硬件环境中无缝开展分布式训练,从而有效提升资源利用效率和训练性能。

FlagCX开源后,寒武纪即开始积极参与共建。从FlagCX v0.1.0版本开始,寒武纪就实现了绝大部分通信原语的支持,如今已完成对allreduce、reducescatter、allgather、send、recv等通信操作的全面支持。这种支持并非简单的接口对接,而是通过FlagCX统一适配器模块,实现了FlagCX与寒武纪原生CNCL通信库的高效、深度集成。

FlagCX通过其核心层(FlagCX Core)处理异构通信,同时通过适配器无缝兼容包括寒武纪CNCL在内的各大厂商同构通信库。这意味着,当用户在纯寒武纪MLU集群上进行同构训练时,FlagCX能够直接调用经过深度优化的CNCL库,确保通信性能与直接使用CNCL原生库基本持平,几乎无性能损耗。这种深度集成保障寒武纪用户在享受FlagCX统一接口便利性的同时,同样可以获得原生性能体验。

20ba9a48-bfc2-11f0-8c8f-92fbcf53809c.png

在寒武纪MLU与其他AI芯片的混合环境中,FlagCX成功保障混合训练的模型精度与纯MLU独立训练结果完全一致。更重要的是,在如此复杂的异构环境下,平均单卡吞吐量仍能达到MLU独立训练的99%以上。性能测试表明寒武纪MLU与FlagCX的结合,可以做到精度无损且性能和原生通信库持平的水平,为用户使用异构算力资源进行大模型训推提供了可靠的技术基础。

2123cf90-bfc2-11f0-8c8f-92fbcf53809c.jpg

FlagScale

FlagScale是智源人工智能研究院主导开发的大模型全生命周期工具集,是FlagOS生态的核心组成部分,致力于构建覆盖模型开发、分布式训练与推理部署的统一技术体系。框架融合了Megatron-LM、vLLM、SGLang、Verl等主流开源项目,为大模型提供从训练到推理的一站式解决方案。

在与FlagScale的深度合作中,寒武纪基于MLU硬件平台完成了对Megatron-LM训练框架和vLLM推理框架的全面适配与优化。在训练环节,MLU平台已充分支持智源Megatron体系下的多类主流模型,包括Llama系列、Aquila2系列、Qwen3系列等,并覆盖从模型并行到混合精度的完整训练流程;在推理环节,MLU平台对vLLM框架实现了完备的兼容支持,可高效运行社区开源的多种大语言模型推理任务。

在完成框架级适配后,结合MLU架构特性,寒武纪还围绕通信、算子和内存调度进行了多层次性能优化。通过集成自研CNCL通信库、CNNL高性能算子库及混合精度算子调度机制,可显著提升分布式训练的通信效率与算力利用率;在vLLM推理中,针对 Attention、LayerNorm、GEMM等核心算子进行了指令级与内存访问模式优化,为后续性能提升奠定基础。

凭借在FlagScale生态中的深度集成与架构适配经验,寒武纪MLU平台具备了对未来FlagScale开发或开放的新模型进行快速、即时适配的能力。无论是Megatron-LM体系下的新一代训练模型,还是vLLM推理端的最新开源模型,MLU都能够在框架演进中实现同步更新与性能优化,保持良好的生态兼容性和持续演进能力。

FlagScale的全面适配与持续优化,使寒武纪MLU在大模型训练与推理全链路中具备了统一、高效、可扩展的框架级生态能力。这一进展不仅加速了国产AI硬件在开源大模型生态中的融合,也为大模型的工程化和高性能部署提供了有力支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38077

    浏览量

    296302
  • 寒武纪
    +关注

    关注

    13

    文章

    212

    浏览量

    74791
  • 大模型
    +关注

    关注

    2

    文章

    3439

    浏览量

    4960

原文标题:寒武纪拥抱众智FlagOS生态

文章出处:【微信号:Cambricon_Developer,微信公众号:寒武纪开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    超越茅台,“寒王上位”!营收暴增43倍,半年狂赚10亿,“中国英伟达”成了?

    电子发烧友网报道(文/梁浩斌)寒王上位!8月27日13点38分,寒武纪股价以1462元一度成功超越贵州茅台,成为A股“新股王”。不过随即冲高回落,“股王”称号只维持了大概一分钟,截至收盘,寒武纪股价
    的头像 发表于 08-28 09:09 9549次阅读
    超越茅台,“寒王上位”!营收暴增43倍,半年狂赚10亿,“中国英伟达”成了?

    寒武纪“炸裂”财报!一季度营收增长40倍,积极备货应对“爆单”?

    电子发烧友网报道(文/梁浩斌)寒武纪,交出一份炸裂财报!在4月18日,寒武纪公布了2024年年报和2025年一季度报告,其中2024年全年营收11.74亿元,同比增长65.56%;亏损4.52亿元
    的头像 发表于 04-22 09:07 2531次阅读
    <b class='flag-5'>寒武纪</b>“炸裂”财报!一季度营收增长40倍,积极备货应对“爆单”?

    寒武纪3000亿市值与GPU厂商密集IPO,AI芯片正是当打之年

      电子发烧友网报道(文/黄晶晶)就在最近,寒武纪市值冲上3000亿元,创造了半导体企业的市值奇迹。2024年1月10日收盘当天寒武纪股价报729.97元,上涨2.48%,市值3047亿元。盘中最
    的头像 发表于 01-20 08:16 4497次阅读
    <b class='flag-5'>寒武纪</b>3000亿市值与GPU厂商密集IPO,AI芯片正是当打之年

    寒武纪引领AI芯片软件新生态

    寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整
    的头像 发表于 11-06 11:23 713次阅读
    <b class='flag-5'>寒武纪</b>引领AI芯片软件新生态

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
    的头像 发表于 10-15 17:54 521次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSee
    的头像 发表于 10-11 17:14 1165次阅读
    <b class='flag-5'>寒武纪</b>成功<b class='flag-5'>适配</b>DeepSeek-V3.2-Exp模型

    寒武纪股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    今日,寒武纪股价突破1200元!8月单月涨幅100%、市值站上5200亿,成为继贵州茅台之后的A股史上第二只千元股。 01 半导体芯片股集体爆发 寒武纪是中国AI芯片设计领军者,其国内云端训练、边缘
    的头像 发表于 08-26 13:54 737次阅读
    <b class='flag-5'>寒武纪</b>股价破1200大关创历史新高 DeepSeek<b class='flag-5'>适配</b>国产芯片成直接原因

    寒武纪85后创始人陈天石身价超1500亿

    芯片生产和DeepSeek适配国产芯片的利好刺激下,加之还有国外投行高盛宣布将寒武纪-U目标价上调50%至1835元,AI芯片龙头寒武纪股价持续大涨。目前寒武纪的市值超5200亿。而陈
    的头像 发表于 08-26 10:37 6108次阅读

    寒武纪联手阶跃星辰成立模芯生态创新联盟

    近日,阶跃星辰发布了新一代基础大模型Step 3。Step 3兼顾智能与效率,通过模型和系统联合创新,实现了行业前列的推理解码效率,将于7月31日面向全球企业和开发者开源。目前,寒武纪已初步实现对Step 3的支持。
    的头像 发表于 07-31 11:26 938次阅读

    寒武纪基于思元370芯片的MLU370-X8 智能加速卡产品手册详解

    MLU370-X8智能加速卡是全面升级的数据中心训推一体AI加速卡,基于寒武纪全新一代思元370芯片,接口为PCIe 4.0 X16,是全高全长双宽(FHFL-Dual-Slot)的标准PCIe加速卡,适用于业内最新的CPU平台,可轻松搭载于最先进的人工智能服务器,快速实
    的头像 发表于 04-24 17:57 4016次阅读
    <b class='flag-5'>寒武纪</b>基于思元370芯片的MLU370-X8 智能加速卡<b class='flag-5'>产品</b>手册详解

    寒武纪思元370芯片参数特性详解

    寒武纪首次采用chiplet技术将2颗AI计算芯粒封装为一颗AI芯片,通过不同芯粒组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。
    的头像 发表于 04-24 17:49 4183次阅读
    <b class='flag-5'>寒武纪</b>思元370芯片参数特性详解

    寒武纪一季度营收大涨4230% 净利润3.55亿 扭亏为盈

    4月18日晚间,国产AI芯片龙头寒武纪发布了财务报告,包括有2025年第一季度财务报告和2024年年度财务报告。 在2025年第一季度,寒武纪营收达到11.11亿,同比增长高达4230.22
    的头像 发表于 04-19 14:15 1559次阅读

    美国业务收入占比低,寒武纪等回应加征关税

    4月9日,寒武纪公告称,公司收入主要来自境内客户,境外收入占比较低,2023年及2024年公司境外客户收入占比均未超过1%。2022年12月美国商务部工业和安全局将公司列入实体清单,对公司采购美系
    发表于 04-12 00:59 912次阅读
    美国业务收入占比低,<b class='flag-5'>寒武纪</b>等回应加征关税

    寒武纪增资全资子公司上海寒武纪

    近日,寒武纪科技公司发布公告,宣布了一项重要的增资计划。为了保障募投项目的顺利实施,并满足全资子公司上海寒武纪的实际运营需求,寒武纪决定使用募集资金1500万元及自有资金1.85亿元,合计2亿元
    的头像 发表于 02-05 13:44 1497次阅读

    寒武纪发布2024年度业绩预告

    昨日晚间,国内领先的智能芯片设计企业寒武纪发布了其2024年度的业绩预告。据公告显示,公司预计全年营业收入将在10.7亿元至12亿元之间,与去年同期相比,实现了50.83%至69.16%的显著增长
    的头像 发表于 01-15 10:30 1234次阅读