DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,在Deepseek开源周的第三天Deepseek正式宣布开源DeepGEMM。
据悉GEMMs同时支持普通的和专家混合(MoE)分组的GEMM运算。而且代码库非常简洁,只有一个核心内核函数,代码量约为300行。DeepGEMM采用CUDA编写,这使得DeepGEMM在安装过程中无需编译,通过在运行时使用轻量级即时编译模块来编译所有内核。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
DeepSeek
+关注
关注
2文章
861浏览量
3449
发布评论请先 登录
相关推荐
热点推荐
百度腾讯抢滩布局!DeepSeek-R1升级和开源背后,国产AI的逆袭之路
电子发烧友网报道(文/李弯弯)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,当前版本为DeepSeek-R1-0528。次日,
登临科技GPU+架构深度适配DeepSeek-V4大模型
2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek-V4,同步带来两大重磅版本 —— 1.6T参数的DeepSeek-V4-Pro与284
寒武纪Day 0适配DeepSeek-V4模型
2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day 0 适配,适配
华为云首发适配DeepSeek-V4模型
4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配。DeepSeek-V4拥有百万Token超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领
沐曦股份Day 0适配DeepSeek-V4-Flash模型
4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份还联合上海人工智能实验室KernelSwift智能算子迁移系统,率先完成
燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型
2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek‑V4,同步推出1.6T DeepSeek‑V4‑Pro与284B
国产AI换芯提速!DeepSeek V4和小米MiMo-2.5上线,主流国产芯片适配
4月24日,中国 AI 新创公司 DeepSeek 宣布两条重大消息:一是公司首次启动融资,目标估值从100亿美元迅速抬升至200亿美元到300亿美元,腾讯、阿里正在洽谈入局;二是DeepSeek
壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型
4月24日,深度求索团队宣布全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。依托成熟的BIRENSUPA软件栈与自研GPU全栈智能体“AIModelMaster”,壁仞科技快速
海光信息DCU平台完成对DeepSeek V4模型极速适配
4月24日,深度求索正式发布并开源DeepSeek V4。海光DCU同步完成对DeepSeek V4的Day0适配,以“模型发布—芯片适配—产业落地”的高效闭环,为全球开发者、企业客户提供即取即用的部署方案。
【「DeepSeek 核心技术揭秘」阅读体验】+混合专家
感谢电子发烧友提供学习Deepseek核心技术这本书的机会。
读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解Deepseek-R1 、Deepseek
发表于 07-22 22:14
【「DeepSeek 核心技术揭秘」阅读体验】--全书概览
DeepSeek对人工智能技术格局的一个影响
第六章 DeepSeek开源技术剖析
第七章 大模型发展未来展望
全书图文并茂,对专业技术属于进行了讲解,也有对流程、框架、参数的展示,结合案例与应用方面的代入,是非常好的对
发表于 07-21 00:04
【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得
进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍,展示了 DeepSeek 在开源领域的积极探索,体现了其推动大模型技术
发表于 07-17 11:59
Arm Neoverse N2平台实现DeepSeek-R1满血版部署
今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练、推理方法上实现创新,在性能和工程效率上带来了显著提升,并在成本效率方面
【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘
进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍,展示了 DeepSeek 在开源领域的积极探索,体现了其推动大模型技术
发表于 06-09 14:38
DeepSeek开源新版R1 媲美OpenAI o3
DeepSeek“悄悄”地又放了一个大招,DeepSeek开源了R1最新0528版本。尽管DeepSeek目前还没有对该版本进行任何说明,但是根据著名代码测试平台Live CodeBe
DeepSeek宣布开源DeepGEMM
评论