0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek扔的第二枚开源王炸是什么

A面面观 2025-02-26 11:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在DeepSeek启动的“开源周”上(Open Source Week)DeepSeek将陆续开源5个代码库,大家关心的DeepSeek扔的第二枚开源王炸是什么?我们这里来简单介绍一下。

DeepSeek在其开源周活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。

在25日,也就是DeepSeek开源周的第二天,DeepSeek发布了名为DeepEP的开源代码库。DeepEP是全球首个专为MoE(混合专家)模型训练和推理设计的通信库,它的出现填补了该领域专用工具的空白。MoE模型作为一种能够有效提升AI模型性能和扩展性的架构,近年来在自然语言处理、计算机视觉等领域得到了广泛应用。然而,MoE模型在训练和推理过程中,面临着通信开销大、算力需求高等挑战。DeepEP正是针对这些痛点,通过优化GPU之间的信息传输效率,极大地缓解了从业者的算力焦虑。

业界人士多认为DeepEP是首个用于 MoE 模型训练和推理的开源 EP 通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。

DeepEP的核心优势在于其高效的通信机制。在传统的分布式AI训练中,GPU之间的通信往往成为性能瓶颈。DeepEP通过一系列创新技术,如低延迟通信协议、智能数据调度等,显著提升了GPU之间的通信效率。这意味着,原本需要庞大算力支持的重型任务,现在可以在更少的GPU上高效完成。据DeepSeek官方介绍,使用DeepEP后,某些MoE模型的训练速度可提升数倍,同时降低了对硬件资源的依赖。

wKgZPGe-hzaAY0kcAAFPhfhWeVs959.png

DeepEP的技术性能特点概述:

EP为Expert Parallelism(专家并行),是一种在大规模分布式AI模型训练中使用的技术,能用于提升模型并行处理能力和训练效率。

1、高效通信架构

支持优化的全对全通信模式,实现节点内和节点间的NVLink与RDMA互联,提升数据传输效率

2、多精度与调度优化

原生支持FP8低精度运算调度,降低计算资源消耗。

3、重性能内核

据介绍,高吞吐量内核可适用于训练和推理预填充场景,最大化数据处理能力;

4、低延迟内核

它针对推理解码场景设计,采用纯RDMA通信和自适应路由技术,减少延迟。

5、资源控制与重叠机制

通过灵活的GPU资源控制策略,实现计算与通信过程的高效重叠,避免资源闲置。

6、深度优化场景

针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;

支持SM(Streaming Multiprocessors)数量动态控制,平衡不同任务(如训练与推理)的吞吐量需求。

DeepEP与FlashMLA的对比

DeepSeek在其开源周活动中首个开源的项目是FlashMLA;FlashMLA让AI大模型低成本却有高性能。

DeepSeek扔的第二枚开源王炸是全栈通信库DeepEP。与第一枚开源王炸FlashMLA相比,两者在多个方面存在显著差异。以下是对这两者的详细对比以及外媒的热议:

1. 功能定位:

● DeepEP:它是全球首个面向MoE(Mixture of Experts)模型的全栈通信库,旨在优化GPU之间的信息传输效率,从而极大提升AI模型的训练与推理效率。

● FlashMLA:专为英伟达Hopper架构GPU(如H800/H100)优化的高效MLA解码内核,旨在显著提升AI的加速能力,特别是在处理长短句子并行任务时能够动态调整计算资源分配,避免算力浪费。

2. 技术特点:

● DeepEP:具备高效的全员通信能力,支持NVLink与RDMA技术,提供高吞吐量的训练预填充内核以及低延迟的推理解码内核。原生支持FP8调度,灵活的GPU资源管理能力使得计算和通信可以重叠进行。

● FlashMLA:专为高性能显卡设计,能够充分挖掘显卡性能潜力,被视为AI加速的“涡轮增压器”。

3. 硬件兼容性:

● DeepEP:具有更广泛的硬件兼容性,不受特定GPU架构的限制。

● FlashMLA:目前仅适配Hopper架构GPU,国产GPU的兼容性尚待验证。

DeepSeek的这两枚开源王炸在国际上引起了广泛关注。外媒对DeepSeek的评价普遍较高,认为其打破了人们对人工智能研发需要“高投入、长周期”的传统认知,提供了低成本、高效能的解决方案。同时,DeepSeek的开源策略也被视为一种促进全球科技进步的积极举措。

具体来说,外媒对DeepEP和FlashMLA的关注点有所不同。对于DeepEP,外媒主要关注其在优化GPU通信效率、提升AI模型训练与推理效率方面的潜力。而对于FlashMLA,外媒则更侧重于其在提升AI加速能力、挖掘显卡性能潜力方面的表现。

wKgZPGe-hzaARqqDAAE3up7dZtc800.png




DeepSeek的第二枚开源王炸DeepEP与第一枚开源王炸FlashMLA在功能定位、技术特点、硬件兼容性和开源时间等方面存在显著差异。外媒对这两者的评价普遍积极,认为它们为人工智能领域带来了新的突破和进步。


我们知道每一次技术的突破都可能成为推动行业发展的关键力量。也能够带来更多产业链的机遇。比如AI 能力和性能不断提升,模型的规模和复杂度持续增长,面对信息速率和密度不断提升的AI,技术进步也会遵循摩尔定律,那硬件互连准备好了吗?

DeepSeek启动的“开源周”连续5天(2月24日至28日);欢迎大家继续关注DeepSeek的大招。期待更多让我们惊喜的东西能够面世。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4346

    浏览量

    46442
  • DeepSeek
    +关注

    关注

    2

    文章

    839

    浏览量

    3405
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度腾讯抢滩布局!DeepSeek-R1升级和开源背后,国产AI的逆袭之路

    Hugging Face平台开源。用户可通过官方网页、App、小程序进入对话界面后,开启“深度思考”功能体验最新版本。API也已同步更新,调用方式不变。   DeepSeek-R1-0528编程能力提升
    的头像 发表于 06-03 06:34 6380次阅读

    海光信息DCU平台完成对DeepSeek V4模型极速适配

      4月24日,深度求索正式发布并开源DeepSeek V4。海光DCU同步完成对DeepSeek V4的Day0适配,以“模型发布—芯片适配—产业落地”的高效闭环,为全球开发者、企业客户提供即取即用的部署方案。
    的头像 发表于 04-24 17:32 1488次阅读

    开源鸿蒙教育委员会(筹)2026师资培训第二站——西安

    开源鸿蒙教育委员会(筹)2026师资培训 第二站:西安 时间 :2026年4月25日-4月26日 地点: 西安交通大学兴庆校区西一楼计算机学院实验室 研修对象 开源鸿蒙高校技术俱乐部与开发者社团
    的头像 发表于 04-16 18:24 852次阅读
    <b class='flag-5'>开源</b>鸿蒙教育委员会(筹)2026师资培训<b class='flag-5'>第二</b>站——西安

    开源旅行团,第二批中奖名单揭晓!】RT-Thread 20 周年暨开发者大会火热报名中

    感受到了来自开源社区的蓬勃活力与无限热情。今天,【开源旅行团】的第二批幸运儿正式诞生!他们用行动诠释了对开源的热爱,用组队传递了技术的温度。以下是
    的头像 发表于 01-16 17:48 1650次阅读
    【<b class='flag-5'>开源</b>旅行团,<b class='flag-5'>第二</b>批中奖名单揭晓!】RT-Thread 20 周年暨开发者大会火热报名中

    沐曦受邀出席第二开源产业生态大会

    以“开源筑基·数实维新”为主题的第二开源产业生态大会将于1月13日在上海举行。沐曦受邀出席本次行业盛会,联合创始人、CTO兼首席软件架构师杨建将发表主题演讲并参与圆桌论坛环节,分享沐曦在开源
    的头像 发表于 01-14 13:51 406次阅读

    成都汇阳投资关于国产开源模型持续突破,国产AI 竞争力增强

    、MiniMax-M2 分别位列全球开源榜单第一 、 第二 ,且榜单前五名中国产开源模型占据四席(Qwen3 235BA22B2507 和 DeepSeek V3.2 Exp 分别位列
    的头像 发表于 11-24 14:01 735次阅读

    第二届中国研究生操作系统开源创新大赛总决赛圆满落幕

    近日,第二届中国研究生操作系统开源创新大赛(以下简称“大赛”)总决赛在杭州圆满落幕。作为本次大赛的核心赛题之一,开源鸿蒙赛道共吸引了全国22所头部高校的55支队伍参赛,最终17支队伍脱颖而出入围决赛
    的头像 发表于 10-30 09:53 853次阅读
    <b class='flag-5'>第二</b>届中国研究生操作系统<b class='flag-5'>开源</b>创新大赛总决赛圆满落幕

    深开鸿成录:以七大使能厚植生态,推进开源鸿蒙全面落地

    今日,2025开放原子开源生态大会正式开幕。深开鸿CEO、开放原子开源基金会理事成录博士在主论坛发表主题演讲《深扎技术根脉,厚育生态繁茂,共绘开源鸿蒙产业生态新图景》,全面回顾了深开
    的头像 发表于 07-23 13:14 1110次阅读
    深开鸿<b class='flag-5'>王</b>成录:以七大使能厚植生态,推进<b class='flag-5'>开源</b>鸿蒙全面落地

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解Deepseek-R1 、Deepseek
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    感谢平台提供的书籍,实物如下 这本书主讲从年前开始火热的DeepSeek 。书籍看起来轻薄,但言简意赅,通俗易懂,总览全局,比较精炼。 第一章 介绍DeepSeek的一系列技术突破与创新。 第二
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    方面。同时,总结了DeepSeek 成功背后的启示,如领导者敏锐的技术直觉、长期主义的坚持、极致的工程优化等,为读者提供了宝贵的经验和启示。 第6章对 DeepSeek**“开源周”**的多个技术项目
    发表于 07-17 11:59

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练、推理方法上实现创新,在性能和工程效率上带来了显著提升,并在成本效率方面
    的头像 发表于 07-03 14:37 1432次阅读
    Arm Neoverse N2平台实现<b class='flag-5'>DeepSeek</b>-R1满血版部署

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    时的基本礼仪和清晰度; 第二次是在强化学习之后 ,收集在训练中表现优秀的解题示例,再混合一些人工整理的题目,重新训练模型。通过这样的流程,DeepSeek-R1 就像一个经历了自学、纠错、再学习、再实战
    发表于 06-09 14:38

    DeepSeek开源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了一个大招,DeepSeek开源了R1最新0528版本。尽管DeepSeek目前还没有对该版本进行任何说明,但是根据著名代码测试平台Live CodeBe
    的头像 发表于 05-29 11:23 1499次阅读

    DeepSeek 引领边缘 AI 芯片向更高性能、更低功耗、更强泛化能力的方向演进

    量从十亿量级到数百亿甚至千亿级不等。例如,DeepSeek LLM 67B 在多项评测中已超过同级别开源模型。这些模型通常采用 Transformer 架构及如多头潜在注意力(MLA)、专家混合(MoE
    的头像 发表于 05-09 10:27 2421次阅读