0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪引领AI芯片软件新生态

寒武纪开发者 来源:寒武纪开发者 2025-11-06 11:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整体系,实现了计算架构、编译优化与算法调度的深度融合:硬件为算法提供极致的并行性能与能效比,软件则通过编译优化、调度策略与模型适配,让每一份算力都被充分释放。

寒武纪基础软件平台CambriconNeuWare,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署AI应用。经过多年投入与积累,寒武纪基础软件平台CambriconNeuWare已经日趋成熟,全面兼容社区最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移。经过持续的全栈优化,Cambricon NeuWare基础软件平台在多项指标上都已达到业界领先水平,特别针对当前业界极具挑战的大规模集群运维实践,进一步丰富和完善了多项集群工具,为大规模训练推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。

寒武纪大模型和搜广推训推解决方案,已完成大规模技术和产品验证

大模型技术正成为智能经济的核心驱动力,深刻重塑人机交互的方式。“搜广推”场景 —— 即搜索、广告与推荐系统 —— 成为大模型技术落地最具价值的前沿阵地之一。大模型赋能的搜广推系统,不仅带来用户体验的显著提升,更重塑了流量分发的逻辑:让“找信息”、“看内容”、“买东西”从被动推荐走向主动理解,从关键词匹配迈向意图洞察。

大模型与“搜广推”的融合,不仅是一场技术革新,更是商业模式的再造。寒武纪在大模型与搜广推的训练推理上,都已完成了大规模的技术和产品验证。

在搜广推训练方向,寒武纪稳步推进技术和产品验证。验证结果表明,解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。持续性能优化方面,完成Layernorm/RMSNorm/L2Norm等多种图匹配融合,显著提升性能。在图融合基础上进一步优化XLA支持,并获得更显著的加速比结果。

在大模型训练方向,寒武纪重点支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模型训练,同时扩展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的训练支持。基于原生FP8的计算能力,新增Qwen/DeepSeek等系列网络FP8的训练支持,精度符合预期。

在大模型推理方向,寒武纪研究并实践W4A4以及MX-FP8/MX-FP4等新型数据类型,探索并支持多种高效注意力机制,包括SparseAttention与Linear Attention。

寒武纪紧跟先进模型的演进,支持Qwen-Omni等多模态融合模型、Hunyuan3D等3D生成模型、CosyVoice等语音生成模型,以及DLM和VLM等新兴架构,确保技术栈的先进性与完备性。

值得一提的是,通过深度的生态合作,针对DeepSeek V3.2-Exp模型,寒武纪实现发布即适配的支持,并与合作伙伴同步开源适配代码。

与此同时,持续优化vLLM推理引擎,完善混合精度低比特量化推理机制,支持通算并行优化,支持PD分离部署,支持基于类IBGDA的极致低时延大规模专家并行,支持Torch.compile特性优化主机侧瓶颈,实现了大模型应用的全方位加速。

寒武纪持续开展对DeepSeek、Qwen、Wan、Hunyuan等系列最新开源模型的极致性能优化,并专项攻坚长序列与超低解码延时等场景的性能优化,持续保持性能领先优势。

寒武纪能够在大模型与“搜广推”训推方面取得快速突破,完成大规模技术和产品验证,源于寒武纪长期的技术深耕与软硬协同能力。正是这种软硬一体、兼具性能领先与部署高效的核心竞争力,让寒武纪能够快速获得市场信任和认可。

e33f8a8c-b8a2-11f0-8c8f-92fbcf53809c.jpg

▲ 寒武纪基础软件平台Cambricon NeuWare,图中仅列举部分组件,相关缩写词注释请见文末。

驱动和运行时库

底层驱动的高稳定性是业务部署的重要前置条件,寒武纪的驱动支撑业务运行数月不停机。同时,寒武纪的驱动在业务优化迭代中,大幅提升了吞吐能力,在极具挑战的搜广推和大模型推理场景中,最大限度地消除了主机侧瓶颈,为端到端达成领先的计算效率打下了坚实的基础。寒武纪通过细粒度的并行技术,解耦数据依赖和调度依赖,极限压榨Kernel函数的吞吐能力,叠加多路DSA异步调度和协同优化,Kernel函数调度吞吐可达每秒几十万个任务,实现业界领先的Kernel吞吐能力。

全面支持Kernel graph的批量下发功能,可运行时汇聚多个算子单次下发,支持在设备侧驻留和下发,实现极低延迟的多Kernel下发,延时水平与国际竞品相当。

增加类IBGDA接口,为通信库进行极低时延的专家并行通信提供系统保障。

支持丰富的设备切分使用场景:

visible cluster:运行时可编程的弹性拆分,可用于快速部署;

sMLU:基于时分复用技术,可用于docker快速部署;

MIM:物理划分,全面对标国际竞品MIG技术。

编译器和调试调优工具

BANG C语言是寒武纪BANG异构并行编程模型的编程语言,在C/C++语言基础上针对MLU架构特点进行扩展,可以高效编写在MLU上运行的并行程序,充分利用MLU大规模并行架构来加速计算任务。BANG C支持丰富的编译优化技术,包括链接时优化(LTO)、基于Profiling反馈优化(PGO)、基于函数调用关系的函数级片上空间复用、Device侧动态链接机制、编译器静态推导访存指令地址空间、任务内并行指令流自动同步算法、优化内存依赖分析、指令级并行的局部指令调度、全局指令调度以及符合MLU架构的高性能指令布局优化。通过这一系列技术,最大限度的发挥芯片的全部潜力,如矩阵乘法等算子可达业界领先的效率。

持续快速迭代Triton算子开发语言,支持Triton 3.4所有特性,包括FP8/FP4的数据类型。 引入fast libentry,优化Triton Kernel的主机端开销,在小Workload场景性能提升显著。Triton编译器后端实现多种优化:

优化软件流水的片上ram占用,优化软件流水的并发度,实现平衡软件流水性能和单指令性能的自动软件流水方案;

实现指令并行、片上ram占用、指令延迟掩盖等多目标的指令调度优化;

实现任务并行的自动调优和自动调度;

实现自动循环合并;

实现基于算子语义的访存和计算优化,如transpose穿透和合并、slice、broadcast穿透等;

优化指令融合和指令选择的性能建模。

通过上述优化,提升了TritonKernel性能泛化性,其中Matmul、FlashAttention类和HSTU类算子性能提升明显,部分热点算子已经与手写算子性能相当。

进一步完善系统和算子的调试调优工具:支持算子core dump,实现异常现场的核心转存,提供精准现场和调试信息对应关系,提供core dump文件解析工具,可快速分析定位算子出现异常的根因。

在主机侧与设备侧并行度调优方面,CNPerf可在极低跟踪开销的情况下实现全维度性能数据采集,可精准捕获主机侧与设备侧执行流、PMU性能指标、函数调用栈等关键信息,支持Kernel计算、内存拷贝、通信任务等多类型任务追踪,覆盖从底层硬件到上层应用的全栈性能数据。CNPerf-GUI智能调优能力突出,内置专家建议系统可自动检测设备空泡、利用率不足、集合通信等待等问题,精准定位热点算子与性能瓶颈。此外CNPerf-GUI针对多机多卡场景,额外提供多日志自动对时与集群迭代分析等功能,进一步简化用户在复杂场景下的调优复杂度。

在单算子调优方面,CNPerf可支持GHz采样频率的硬件工作状态采样,精准记录MLU前后端工作状态。用户可基于该功能分析流间/核间同步、算子软件流水排布等问题,最大化利用硬件后端资源。

CNPerf-GUI适配Linux、macOS、Windows多平台,支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上亿函数记录)的快速加载及流畅操作。

新增程序正确性分析工具CNSantizer,使用运行时插桩技术自动完成多核间竞争访问检测、单核内多指令流竞争访问检测、Device侧内存越界访问检测、未定义程序行为检测、使用未初始化内存检测等。

新增程序性能分析和调优建议工具CNAdvisor,使用运行时插桩采集以及硬件性能计数器采集方式获取程序运行时状态,并根据性能调优经验库,自动分析程序性能问题并标记出对应源代码位置,进一步给出优化建议。

算子库

寒武纪计算库积极拥抱开源社区的技术演进,持续迭代打磨核心基础算子的功能、性能和稳定性,更快更好地支持在寒武纪智能芯片上高效、稳定地运行开源和私有模型。计算库针对搜广推、大语言模型、文生图和文生视频等热点场景做了深入的功能扩展和性能优化:

大规模Embedding Table稀疏访存和计算极致优化,性能与GPU竞品相当;

GEMM/BatchGEMM/GroupGEMM等矩阵乘类算子性能泛化得到显著增强,大规模矩阵乘HFU达到行业领先水平;

矩阵乘类算子支持多种社区公开/私有定制的低精度量化功能;

支持类CUTLASS GEMM模板库的扩展开发和AutoTuning;

Attention类算子在低精度加速等方向的探索和研发成果已成功完成验证,获得良好的加速效果;

支持大语言模型使用的MTP技术,开发了用于优化MTP性能的Top-k和Top-p采样、随机采样等融合算子。

为支持计算库的持续快速迭代,保障计算库软件质量的同时做到精度性能不回退,寒武纪计算库团队还打造了可靠的维测平台,提供了丰富的维测工具,开发了高覆盖度的功能性能测例,并制定了科学的验收标准。

分布式通信库

通信库针对大规模场景进行专项优化:新增HDR/DBT等Allreduce通信算法,优先提升大规模条件下的通信带宽,对Alltoall操作进行深度优化,使其大规模扩展性达到与国际主流竞品相当的水平。通信库同步加强可维可测相关的功能,支持在线打点、模块化日志、高可靠服务模块等,帮助用户能够快速分析通信下发错误,异常卡死等问题,提高集群通信可用性。通信库通过在Kernel支持RoCE网卡的RDMA操作(类IBGDA)显著优化大规模专家并行场景下的ALL2ALL通信延迟,提升了MoE类模型推理任务的端到端吞吐。

集群工具

CntrainKit-Accu(大规模集群精度定位工具):为万卡分布式训练场景提供端到端精度定位,提供精度指标在线监控,并针对精度问题进行自动化分级、采集信息、智能分析并提供对应解决方案。CntrainKit-Accu工具还全面支持NaN/Inf异常检测与快速定位,实现异常点级别的秒级溯源,大大提升大模型和搜广推等场景的大规模训练精度问题排查效率,让每一次精度问题都能被精准捕获。

CntrainKit-Monitor(大规模集群监控调优工具):实现对万卡级集群训练任务的实时通信与算子性能画像,具备毫秒级任务健康可视化能力,支持算子粒度的性能剖析,识别AI作业中的性能瓶颈。具备万卡规模训练任务的“可观、可查、可优”能力,真正实现大规模集群的“问题自感知”。

CNCE(集群监管平台):构建覆盖计算、网络、存储的数据中心全景监控体系,实现对十万卡级算力集群的秒级状态采集与拓扑可视化。平台具备自动发现、智能诊断、自动处理的闭环故障管理能力,支持万卡级任务的多维异常诊断与根因定位,让用户专注于算法创新与模型训练,无需再为底层硬件波动分心。CNCE的上线使集群运维从“人工巡检”迈向“智能自治”,显著提升大规模AI训练的可用性与稳定性。

CNAnalyzeInsight(故障分析工具):CNAnalyzeInsight是智能日志分析与根因诊断引擎,支持对GB级日志的秒级检索与多维聚合分析。具备在线实时诊断告警与离线快速分析双模式,能够实现“异常发现、问题定位、原因归纳、修复建议生成”的故障诊断闭环,显著提升训练任务的稳定性与问题处理效率。

开源与框架

寒武纪快速跟进社区PyTorch的进展,支持PyTorch 2.1到PyTorch 2.8的全部社区版本。适配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列关键功能。Torch compile性能整体上追平GPUcompile加速比,高效支撑了产品在多个训练和推理场景下的成功验证。

寒武纪还提供GPU Migration一键迁移工具,帮助用户近乎零成本将模型从GPU迁移到MLU。同时配备TorchDump精度调试工具和Torch Profiler性能调试工具,助力用户高效定位和解决精度和性能问题。

此外,寒武纪还支持PyTorch Lightning、TorchTitan、TorchRec等社区生态,并建立快速跟进社区版本的长效机制,可在社区版本发布后2周内实现MLU适配版本的发布。

通过近十年的持续打磨迭代,寒武纪已构建出一套高效、易用、稳定、成熟且具备高可扩展性的软硬一体化产品体系。凭借领先的芯片技术与完善的基础软件平台,寒武纪产品已经在大模型、搜广推、图片与视频生成和各类多模态的训练与推理场景中成功完成验证,赢得广泛认可。

在此过程中,寒武纪产品不断接受更多大规模场景高强度检验,推动软件平台与芯片体系持续进化,形成了“应用促进优化、优化推动更强应用”的良性循环。

通过为用户提供更高效、更稳定、更广覆盖的支持,寒武纪加速赋能产业智能化转型,推动AI能力真正走进千行百业。 “让机器更好地理解和服务人类”,寒武纪的愿景正在一步一步成为现实。

*寒武纪基础软件平台Cambricon NeuWare图中标注的缩写词全称:

1. Cambricon HLO:机器学习模型高级操作集(HLO)的寒武纪后端;

2. CNNL:Cambricon Network Library,寒武纪人工智能计算库;

3. CNNL-Extra:Cambricon CNNL Extra,寒武纪人工智能计算库的扩展库;

4. CNCV: Cambricon Computer Vision Library,寒武纪计算机视觉库;

5. CNCL:Cambricon Communications Library,寒武纪高性能通信库;

6. CNFFmpeg:Cambricon FFmpeg,基于开源FFmpeg开发的硬件加速库;

7. CNCC:Cambricon Compiler Collection,寒武纪BANG C语言编译器;

8. CNAS:Cambricon Assembler,寒武纪汇编器组件;

9. CNGDB:Cambricon GNU Debugger,寒武纪BANG C语言调试工具;

10. CNSanitizer:Cambricon Sanitizer,寒武纪代码检测工具;

11. CNPAPI:Cambricon Profiling API,寒武纪性能分析接口库;

12. CNPerf:Cambricon Performance,寒武纪性能分析工具;

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武纪性能剖析图形化工具;

14. CNMon:Cambricon Monitor,寒武纪设备监控与管理命令行工具;

15. CNVS:Cambricon Validation Suite,寒武纪设备验证工具集;

16. CNFieldiag:Cambricon Field Diagnostic,寒武纪现场诊断工具;

17. CNAnalyzeInsight:寒武纪故障分析工具;

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武纪通信库性能基准测试工具;

19. Cambricon Device Plugin:寒武纪设备插件;

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武纪智算运管平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 寒武纪
    +关注

    关注

    13

    文章

    212

    浏览量

    74795
  • AI芯片
    +关注

    关注

    17

    文章

    2063

    浏览量

    36567
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964

原文标题:易用好用,寒武纪引领AI芯片软件新生态

文章出处:【微信号:Cambricon_Developer,微信公众号:寒武纪开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里放大招:自研AI芯片100%国产,不用台积电代工

    电子发烧友网报道(文 / 吴子鹏)8 月 31 日晚间,有消息称阿里云通义千问大模型面临算力缺口,阿里紧急追加寒武纪思元 370 芯片订单至 15 万片。然而,该消息随后不久便被阿里云相关人士辟谣
    的头像 发表于 09-03 09:17 1w次阅读

    寒武纪“炸裂”财报!一季度营收增长40倍,积极备货应对“爆单”?

    电子发烧友网报道(文/梁浩斌)寒武纪,交出一份炸裂财报!在4月18日,寒武纪公布了2024年年报和2025年一季度报告,其中2024年全年营收11.74亿元,同比增长65.56%;亏损4.52亿元
    的头像 发表于 04-22 09:07 2534次阅读
    <b class='flag-5'>寒武纪</b>“炸裂”财报!一季度营收增长40倍,积极备货应对“爆单”?

    寒武纪3000亿市值与GPU厂商密集IPO,AI芯片正是当打之年

      电子发烧友网报道(文/黄晶晶)就在最近,寒武纪市值冲上3000亿元,创造了半导体企业的市值奇迹。2024年1月10日收盘当天寒武纪股价报729.97元,上涨2.48%,市值3047亿元。盘中最
    的头像 发表于 01-20 08:16 4509次阅读
    <b class='flag-5'>寒武纪</b>3000亿市值与GPU厂商密集IPO,<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>正是当打之年

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态
    的头像 发表于 10-15 17:54 526次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSeek-V3.2-Exp的亮点。
    的头像 发表于 10-11 17:14 1173次阅读
    <b class='flag-5'>寒武纪</b>成功适配DeepSeek-V3.2-Exp模型

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    : 介绍了7家ASIC的新创公司: Tachyum、Cerebras、SambaNova、Graphcore、Esperanto、Groq、Etched AI 还介绍了中国的AI芯片公司:中科
    发表于 09-12 16:07

    寒武纪股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    今日,寒武纪股价突破1200元!8月单月涨幅100%、市值站上5200亿,成为继贵州茅台之后的A股史上第二只千元股。 01 半导体芯片股集体爆发 寒武纪是中国AI
    的头像 发表于 08-26 13:54 746次阅读
    <b class='flag-5'>寒武纪</b>股价破1200大关创历史新高 DeepSeek适配国产<b class='flag-5'>芯片</b>成直接原因

    寒武纪85后创始人陈天石身价超1500亿

    芯片生产和DeepSeek适配国产芯片的利好刺激下,加之还有国外投行高盛宣布将寒武纪-U目标价上调50%至1835元,AI芯片龙头
    的头像 发表于 08-26 10:37 6125次阅读

    寒武纪联手阶跃星辰成立模芯生态创新联盟

    近日,阶跃星辰发布了新一代基础大模型Step 3。Step 3兼顾智能与效率,通过模型和系统联合创新,实现了行业前列的推理解码效率,将于7月31日面向全球企业和开发者开源。目前,寒武纪已初步实现对Step 3的支持。
    的头像 发表于 07-31 11:26 948次阅读

    寒武纪基于思元370芯片的MLU370-X8 智能加速卡产品手册详解

    MLU370-X8智能加速卡是全面升级的数据中心训推一体AI加速卡,基于寒武纪全新一代思元370芯片,接口为PCIe 4.0 X16,是全高全长双宽(FHFL-Dual-Slot)的标准PCIe加速卡,适用于业内最新的CPU平台
    的头像 发表于 04-24 17:57 4043次阅读
    <b class='flag-5'>寒武纪</b>基于思元370<b class='flag-5'>芯片</b>的MLU370-X8 智能加速卡产品手册详解

    寒武纪思元370芯片参数特性详解

    寒武纪首次采用chiplet技术将2颗AI计算芯粒封装为一颗AI芯片,通过不同芯粒组合规格多样化的产品,为用户提供适用不同场景的高性价比AI
    的头像 发表于 04-24 17:49 4203次阅读
    <b class='flag-5'>寒武纪</b>思元370<b class='flag-5'>芯片</b>参数特性详解

    寒武纪一季度营收大涨4230% 净利润3.55亿 扭亏为盈

    4月18日晚间,国产AI芯片龙头寒武纪发布了财务报告,包括有2025年第一季度财务报告和2024年年度财务报告。 在2025年第一季度,寒武纪营收达到11.11亿,同比增长高达4230
    的头像 发表于 04-19 14:15 1567次阅读

    美国业务收入占比低,寒武纪等回应加征关税

    4月9日,寒武纪公告称,公司收入主要来自境内客户,境外收入占比较低,2023年及2024年公司境外客户收入占比均未超过1%。2022年12月美国商务部工业和安全局将公司列入实体清单,对公司采购美系
    发表于 04-12 00:59 914次阅读
    美国业务收入占比低,<b class='flag-5'>寒武纪</b>等回应加征关税

    寒武纪增资全资子公司上海寒武纪

    ,对上海寒武纪进行增资。 此次增资是基于募投项目的实施进展而做出的决策。寒武纪作为一家在人工智能芯片领域具有领先地位的企业,一直致力于推动相关技术的研发和应用。为了进一步提升公司的竞争力和市场份额,
    的头像 发表于 02-05 13:44 1504次阅读

    寒武纪发布2024年度业绩预告

    昨日晚间,国内领先的智能芯片设计企业寒武纪发布了其2024年度的业绩预告。据公告显示,公司预计全年营业收入将在10.7亿元至12亿元之间,与去年同期相比,实现了50.83%至69.16%的显著增长
    的头像 发表于 01-15 10:30 1242次阅读