0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦GPU跑通DeepSeek开源代码库FlashMLA

沐曦MetaX 来源:沐曦MetaX 2025-02-25 16:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek 开源周

今日,DeepSeek正式启动"开源周"计划,首发代码库FlashMLA一经开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2K Star!

沐曦技术团队在FlashMLA开源后迅速响应,仅用2小时即完成与沐曦GPU的适配工作,并于当日将代码提交至开源社区。本次适配成功后,MXMACA平台也可完美运行FlashMLA,这充分验证了沐曦GPGPU架构与MXMACA软件平台在生态兼容性方面的先天优势!

FlashMLA通过MLA解码优化与分页KV缓存技术等显著提升硬件利用率,可加速大语言模型解码过程,有效提升响应速度与吞吐量,尤其适用于聊天机器人等实时生成场景。沐曦在适配中应用矩阵吸收算法将低秩投影融入Flash Attention 2核函数,在保证计算效率的同时显著降低显存占用。同步构建了MXMACA自动化测试体系覆盖常规及边界场景,确保功能准确性与数值稳定性,为长文本生成等显存敏感场景提供显著性能增益。沐曦本次提交的代码不仅突破了官方实现中对Hopper架构的依赖,还新增支持64以外的多样化page size配置,大幅提升框架适用性,为开源社区带来实质性技术贡献。

明天,DeepSeek开源计划第二弹即将揭晓,敬请期待后续动态!

关于沐曦

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案,打造全栈GPU芯片产品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用计算,以及曦彩G系列GPU用于图形渲染,满足“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数字经济建设和产业数字化、智能化转型升级的算力基石。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136070
  • 开源
    +关注

    关注

    3

    文章

    4348

    浏览量

    46445
  • 沐曦
    +关注

    关注

    1

    文章

    100

    浏览量

    1879
  • DeepSeek
    +关注

    关注

    2

    文章

    839

    浏览量

    3406

原文标题:2小时极速适配!沐曦GPU率先跑通DeepSeek开源代码库FlashMLA!

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    股份云C系列GPU产品Day 0适配MiniMax M2.7模型

    4月12日,MiniMax新一代Agent旗舰大模型M2.7开源股份云C系列GPU已完成对 M2.7的Day 0深度适配,将为M2.
    的头像 发表于 04-13 17:08 773次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b>产品Day 0适配MiniMax M2.7模型

    股份云C系列GPU产品Day 0适配智谱GLM-5.1旗舰模型

    4月8日,智谱新一代旗舰模型GLM-5.1实现开源。目前,股份云 C 系列 GPU已完成该系列模型Day 0 全量适配,再度以全栈自主
    的头像 发表于 04-09 11:25 386次阅读

    股份北京AI研究院暨企业开源中心正式揭牌启动

    3月20日,股份北京AI研究院暨“企业开源中心”正式揭牌启动。活动以“芯生,开源共创”为
    的头像 发表于 03-24 10:11 326次阅读

    股份GPU产品正式接入华佗开源生态

    股份坚持“自主创新与开放兼容”双轨战略,以自研MXMACA软件栈为核心,构建硬件与应用的桥梁,并承载开源核心使命。该栈于2025年2月正式开源,致力于打造开放的
    的头像 发表于 03-16 14:40 1618次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>GPU</b>产品正式接入华佗<b class='flag-5'>开源</b>生态

    股份云C系列GPU全面适配通义千问Qwen3.5三款新模型

    今日,通义千问团队正式开源发布Qwen3.5系列中等规模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三个版本。股份旗下
    的头像 发表于 02-28 10:05 727次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b>全面适配通义千问Qwen3.5三款新模型

    云C500/C550 GPU产品深度适配MiniMax M2.5模型

    2月13日晚间,MiniMax正式开源MiniMax M2.5模型。技术团队依托MXMACA软件栈,在24小时内完成云C500/C550 对该模型的深度适配。
    的头像 发表于 02-26 14:19 1145次阅读

    云C系列GPU Day 0 适配智谱全新一代大模型GLM-5

    ,支持模型“零代码”或极低改造成本迁移。MXMACA已于2025年2月正式开源,目前用户规模已突破25万人。 云C系列GPU基于
    的头像 发表于 02-12 10:53 1096次阅读
    <b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b> Day 0 适配智谱全新一代大模型GLM-5

    云C500/C550 GPU产品适配智谱GLM-OCR模型

    今天,智谱AI正式发布并开源GLM-OCR,以 “小尺寸、高精度” 实现文档解析能力新标杆。股份云C500/C550 GPU充分发挥高
    的头像 发表于 02-03 11:36 934次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云C500/C550 <b class='flag-5'>GPU</b>产品适配智谱GLM-OCR模型

    股份正式推出索X系列全新GPU品牌与产品线

    1月27日,股份(股票代码:688802.SH)正式推出索X系列全新GPU品牌与产品线。该系列产品是面向科学智能场景深度优化的高性能计
    的头像 发表于 01-28 17:14 850次阅读

    受邀出席第二届开源产业生态大会

    以“开源筑基·数实维新”为主题的第二届开源产业生态大会将于1月13日在上海举行。受邀出席本次行业盛会,联合创始人、CTO兼首席软件架构师杨建将发表主题演讲并参与圆桌论坛环节,分享
    的头像 发表于 01-14 13:51 406次阅读

    股份云C系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    12月8日智谱AI发布并开源 GLM-4.6V 系列多模态大模型,股份云C系列GPU完成Day 0适配。
    的头像 发表于 12-17 14:28 838次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b> Day 0适配智谱GLM-4.6V多模态大模型

    首款全国产通用GPU芯片发布 集成推出云C600

    集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——云C600,这标志着国产高性能GPU实现历史性突破。 据新华日报报道显示
    的头像 发表于 10-19 20:04 4.7w次阅读

    GPU与龙蜥操作系统完成适配

    集成电路(上海)股份有限公司(以下简称"")于 2020 年 9 月成立于上海,其拥有技术完备、设计和产业化经验丰富的团队,曾主导过十多款世界主流高性能
    的头像 发表于 10-17 15:06 1389次阅读

    云C系列产品已支持TileLang

    近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,
    的头像 发表于 10-14 09:25 1342次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云C系列产品已支持TileLang

    硅基流动携手首发基于云的Kimi K2推理服务

    天网络”)运营的云C550 三千卡通用 GPU 国产集群。此次合作标志着硅基流动正式将该国产集群纳入算力网络,进一步为大模型产业落地提供充沛的高性能国产算力。
    的头像 发表于 07-23 17:33 2162次阅读