0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程发布大模型训练仿真工具SimuMax v1.0

摩尔线程 来源:摩尔线程 2025-09-11 18:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键功能,进一步增强了模型兼容性、灵活性与用户体验。

SimuMax是一款专为大语言模型(LLM)分布式训练负载设计的仿真模拟工具,可为单卡到万卡集群提供仿真支持。它无需实际执行完整训练过程,即可高精度模拟训练中的显存使用和性能表现,帮助用户深入洞察训练效率,探索提升计算效能的优化途径。

基于静态分析模型,摩尔线程自研的SimuMax通过结合成本模型、内存模型和屋顶模型,实现对训练过程的精准仿真。该工具支持多种主流分布式并行策略与优化技术,适用于以下多种应用场景:

并行策略:数据并行(DP)、张量并行(TP)、序列并行(SP)、流水线并行(PP)、专家并行(EP);

优化技术:ZeRO-1、完整重计算、选择性重计算、融合内核等;

适用对象:希望寻找最优训练策略以提升效率的用户;从事框架或大模型算法开发的工程师,用于优化与调试;芯片制造商,用于性能预测与硬件设计辅助。

核心突破:

仿真精度实现显著提升

SimuMax 1.0最显著的更新在于其仿真精度的大幅提升,为用户提供更可靠的分析结果。

显存估计:针对Dense和MoE(混合专家)模型,显存估计误差稳定控制在1%以内;

性能估计:经测试,在多个主流GPU上,目前最优性能估计误差持续低于4%;

cc21df46-8ef7-11f0-8c8f-92fbcf53809c.png

新功能与增强:

扩展模型兼容与精细化控制

SimuMax 1.0引入了多项新特性,支持更广泛的模型结构和高效率训练需求:

MLA支持:新增对MLA模型架构的支持;

流水线并行(PP)增强:支持对首阶段和末阶段层的细粒度控制,优化模型分片策略;

MoE灵活性提升:在混合专家(MoE)模型中支持自定义Dense层,为模型设计提供了更大的灵活性。

Megatron兼容:提供简化的模型迁移流程,可轻松转换和分析基于Megatron框架的模型,提升与现有生态的互操作性。

重计算策略优化:实现更细粒度的选择性重计算,支持更精准的内存和计算资源权衡。

全面的效率分析:新增对不同张量形状与内存布局下计算效率与利用率的评估功能。

快速开始

开发者可通过以下步骤,快速体验SimuMax:

克隆仓库:

gitclonegit@github.com:MooreThreads/SimuMax.git cdSimuMax

安装Python包:

pipinstall -r requirements.txt pip install -v -e .

运行示例:

参考项目中的教程和示例(如examples/perf_llama3_8b_tp1_pp2.py),即可开始使用SimuMax进行训练仿真。

持续优化与生态共建

SimuMax已在GitHub全面开源,开发者可访问仓库获取源代码、详细文档和示例。摩尔线程鼓励开发者通过提交Issue报告问题或通过Pull Request贡献代码,共同促进SimuMax功能的完善和软件生态的繁荣。

SimuMax 开源地址:

https://github.com/MooreThreads/SimuMax

摩尔线程始终致力于为开发者提供强大的软件工具链。SimuMax的发布,将为大模型分布式训练的仿真和优化提供精准视角,助力AI产业提升算力利用效率,探索更高效的训练范式。

未来,摩尔线程SimuMax团队将继续积极开发,计划增加对上下文并行、更多流水线调度器、通算并行、Offload技术、策略搜索以及更精准的memory- bound算子模拟等功能的支持。

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 仿真
    +关注

    关注

    54

    文章

    4483

    浏览量

    138276
  • 开源
    +关注

    关注

    3

    文章

    4207

    浏览量

    46142
  • 摩尔线程
    +关注

    关注

    2

    文章

    279

    浏览量

    6454
  • 大模型
    +关注

    关注

    2

    文章

    3650

    浏览量

    5184

原文标题:摩尔线程发布大模型训练仿真工具SimuMax v1.0:仿真精度显著提升,显存误差仅1%

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程 × 五一视界|共建全栈国产化的物理AI仿真体系

    线程以旗舰级AI训推一体全功能GPU MTT S5000的强劲算力,深度赋能五一视界下一代智驾仿真平台 SimOne 4.0,双方已高效完成系统性适配与深度优化。 通过打通从大模型感知挖掘、4DGS
    的头像 发表于 02-24 10:18 557次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b> × 五一视界|共建全栈国产化的物理AI<b class='flag-5'>仿真</b>体系

    摩尔线程快速完成对Qwen3.5模型全面适配

    MUSA C编程语言及Triton-MUSA工具链高效完成模型部署与优化。 在Qwen3.5的适配过程中,摩尔线程验证了MUSA生态的两大核心能力:原生MUSA C支持让开发者可直接使
    发表于 02-18 08:32 169次阅读

    摩尔线程发布SimuMax v1.1:从仿真工具升级为全栈工作流平台,助力大模型训练提效

        近日,摩尔线程正式发布开源大模型分布式训练仿真工具
    的头像 发表于 01-09 09:17 242次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>发布</b><b class='flag-5'>SimuMax</b> <b class='flag-5'>v</b>1.1:从<b class='flag-5'>仿真</b><b class='flag-5'>工具</b>升级为全栈工作流平台,助力大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>提效

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短
    的头像 发表于 12-04 09:05 1126次阅读

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着
    的头像 发表于 11-17 16:03 496次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>新一代大语言<b class='flag-5'>模型</b>对齐框架URPO入选AAAI 2026

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一
    的头像 发表于 09-10 11:02 1037次阅读

    摩尔线程“AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打
    的头像 发表于 07-28 11:28 4545次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:五大核心技术支撑,打造大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>超级工厂

    摩尔线程“AI工厂”:以系统级创新定义新一代AI基础设施

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打
    发表于 07-28 10:34 2800次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:以系统级创新定义新一代AI基础设施

    深控数据平台V1.0发布!以IoT之力重塑工厂“数据脉络”

    自主研发的“深控数据平台V1.0”(软著登记号:XXXXXXXX),以IoT技术为核心,打造“全域感知-智能分析-精准控制”的一体化平台。
    的头像 发表于 05-28 14:56 618次阅读

    摩尔线程发布图形显卡驱动程序v300.110

    近日,摩尔线程发布版本号为v300.110的图形显卡驱动程序,为游戏玩家和专业用户带来全方位的性能优化与体验提升,特别在3DMark基准测试工具
    的头像 发表于 05-22 17:26 1190次阅读

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    架构和全功能GPU的强大技术实力,摩尔线程迅速响应并完成了对DeepSeek-V3的无缝升级,实现了零报错、零兼容性问题的光速部署,充分展现了摩尔
    的头像 发表于 03-31 11:34 1280次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU成功适配Deepseek-<b class='flag-5'>V</b>3-0324大<b class='flag-5'>模型</b>

    摩尔线程发布图形显卡驱动v290.100.1

    3月20日,摩尔线程发布版本号为v290.100.1的图形显卡驱动程序。在DirectX 12模式下,新驱动对《战地风云5》《幽灵行者2》进行了深度优化,游戏平均帧率提升约50%。此外
    的头像 发表于 03-21 14:26 905次阅读

    摩尔线程发布云电脑驱动MT vGPU 2.7.0

    3月18日,摩尔线程正式发布云电脑驱动MT vGPU 2.7.0。新版本在国内首次实现了国产GPU云电脑对DirectX 12的支持,同时显著提升图形渲染性能与兼容性。通过全功能GPU四大引擎的深度协同,
    的头像 发表于 03-19 15:56 1087次阅读

    摩尔线程GPU原生FP8计算助力AI训练

    并行训练和推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持FP8计算精度的国产GPU企业,此次开源不仅为AI训练和推理提供了全新
    的头像 发表于 03-17 17:05 1528次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU原生FP8计算助力AI<b class='flag-5'>训练</b>

    摩尔线程支持阿里云通义千问QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义千问QwQ-32B。摩尔线程在该模型发布后2小时内,迅速且高效完成了对千问QwQ-32B的支持。
    的头像 发表于 03-07 17:48 1361次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>支持阿里云通义千问QwQ-32B开源<b class='flag-5'>模型</b>