0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA

AI机械姬 来源:AI机械姬 作者:AI机械姬 2025-02-27 11:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2 月 24 日,DeepSeek"开源周"正式启动,并发布首个代码库FlashMLA,引发全球关注。

FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核,专为可变长度序列优化设计,是DeepSeek高效使用算力的核心程序模块。FlashMLA通过MLA解码优化与分页KV缓存技术,显著提升硬件利用率,加速大语言模型解码过程,有效提高响应速度与吞吐量,适用于各种实时对话生成场景。

云天励飞芯片团队在FlashMLA开源后,迅速完成了DeepEdge10 平台与FlashMLA的适配工作。在适配过程中,云天励飞采用了Op fusion tiling、Online softmax、Double buffer、细粒度存算并行等先进技术,并基于自研的Triton-like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化,不仅显著提升了计算效率,还大幅降低了显存占用,充分展现了DeepEdge10 平台“算力积木”芯片架构的卓越优势,以及其与DeepSeek生态的高度契合性。

今日,云天励飞已将相关代码提交至开源平台Gitee,为开源AI贡献了重要的技术力量。

算子的源码地址为:

https://gitee.com/Intellifusion_2025/tyllm/blob/master/python/tylang/flash_mla.py

DeepEdge10 系列芯片是专门针对大模型时代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型;基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求,为大模型推理提供强大动力。

wKgZPGe_1piAUBg0AAd-aDFnMzU838.png

目前,DeepEdge10 芯片平台已成功适配DeepSeek R1 系列模型及国产鸿蒙操作系统。未来,云天励飞将持续加大研发力度,推动芯片在国产化领域取得更大突破,为国产AI生态建设贡献更多力量。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云天励飞
    +关注

    关注

    0

    文章

    173

    浏览量

    12577
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2812
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云天与金蝶达成战略合作

    11月4日,在2025金蝶全球创见者大会上,云天与金蝶签署战略合作协议。
    的头像 发表于 11-05 18:09 1486次阅读

    云天正式加入OISA生态

    近日,云天正式加入 OISA 生态,携手产业伙伴共同推动国产 AI 芯片互联体系建设,为中国算力生态注入新的动力。
    的头像 发表于 10-11 13:59 413次阅读

    云天亮相2025全球AI芯片峰会

    9 月 17 日,全球 AI 芯片峰会在上海举行,云天董事长兼 CEO 陈宁出席并发表演讲。
    的头像 发表于 09-17 17:56 1095次阅读

    摩尔线程全面支持DeepSeek开源成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖
    的头像 发表于 03-04 10:06 843次阅读

    摩尔线程完成DeepSeek开源FlashMLA和DeepGEMM适配

    DeepSeek启动“开源”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线
    的头像 发表于 02-27 14:40 1107次阅读

    DeepSeek扔的第二枚开源王炸是什么

    DeepSeek在其开源活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。   在25日,也就是
    的头像 发表于 02-26 11:05 1290次阅读
    <b class='flag-5'>DeepSeek</b>扔的第二枚<b class='flag-5'>开源</b>王炸是什么

    沐曦GPU跑通DeepSeek开源代码库FlashMLA

    今日,DeepSeek正式启动"开源"计划,首发代码库FlashMLA一经开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2
    的头像 发表于 02-25 16:25 1326次阅读

    云天DeepEdge200芯片和智能拍摄AI眼镜 亮相国家博物馆“网络发展新图景成就展”

    篇章,通过实物展品、影像资料及场景还原,呈现网络技术赋能千行百业的生动实践。 云天作为国内边缘AI领军企业参与了此次成就展。在“融合赋能”展区,云天
    的头像 发表于 02-24 18:35 3723次阅读

    云天AI技术为智慧教育注入新动能

    2月20日-21日,云天受邀参加“科学教育•社会协同”资源对接交流活动。在会上,云天全面
    的头像 发表于 02-21 14:13 1009次阅读

    云天天书大模型训推一体机成功适配DeepSeek

    近日,云天天书大模型训推一体机成功适配DeepSeek。该一体机由云天与华为联合推出,可以部
    的头像 发表于 02-14 11:02 1296次阅读

    云天飞上线DeepSeek R1系列模型

    春节期间,云天芯片团队完成 DeepEdge10 “算力积木”芯片平台与DeepSeek-R1-Distill-Qwen-1.5B、
    的头像 发表于 02-06 10:39 1077次阅读
    <b class='flag-5'>云天</b><b class='flag-5'>励</b>飞上线<b class='flag-5'>DeepSeek</b> R1系列模型

    DeepEdge10芯片成功适配国产鸿蒙操作系统

    日前,DeepEdge10芯片已成功完成与国产鸿蒙操作系统的适配工作,标志着该芯片在边缘场景应用领域实现了供应链及操作系统层面的全面国产化安全。 为实现这一适配,技术团队已构建起针对鸿蒙操作系统
    的头像 发表于 01-24 15:31 1308次阅读

    云天DeepEdge10芯片与国产鸿蒙操作系统完成适配

    日前,DeepEdge10芯片已完成国产鸿蒙操作系统的适配。目前已构建适配鸿蒙的芯片编译平台框架,完成图形等子系统的适配。基于DeepEdge10
    的头像 发表于 01-24 10:14 1692次阅读

    云天联合发布AI智能眼镜

    近日,云天飞在互动平台上宣布,公司与闪极科技、LOHO眼镜品牌携手合作,共同推出了全新的AI智能眼镜。这款眼镜不仅集成了云天自研的大模
    的头像 发表于 12-26 11:05 1648次阅读

    云天首款AI眼镜正式发布

    近日,云天与闪极科技、LOHO联合打造的AI智能眼镜正式发布。该产品搭载云天自研大模型“
    的头像 发表于 12-20 16:37 1135次阅读