0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek扔的第二枚开源王炸是什么

A面面观 2025-02-26 11:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在DeepSeek启动的“开源周”上(Open Source Week)DeepSeek将陆续开源5个代码库,大家关心的DeepSeek扔的第二枚开源王炸是什么?我们这里来简单介绍一下。

DeepSeek在其开源周活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。

在25日,也就是DeepSeek开源周的第二天,DeepSeek发布了名为DeepEP的开源代码库。DeepEP是全球首个专为MoE(混合专家)模型训练和推理设计的通信库,它的出现填补了该领域专用工具的空白。MoE模型作为一种能够有效提升AI模型性能和扩展性的架构,近年来在自然语言处理、计算机视觉等领域得到了广泛应用。然而,MoE模型在训练和推理过程中,面临着通信开销大、算力需求高等挑战。DeepEP正是针对这些痛点,通过优化GPU之间的信息传输效率,极大地缓解了从业者的算力焦虑。

业界人士多认为DeepEP是首个用于 MoE 模型训练和推理的开源 EP 通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。

DeepEP的核心优势在于其高效的通信机制。在传统的分布式AI训练中,GPU之间的通信往往成为性能瓶颈。DeepEP通过一系列创新技术,如低延迟通信协议、智能数据调度等,显著提升了GPU之间的通信效率。这意味着,原本需要庞大算力支持的重型任务,现在可以在更少的GPU上高效完成。据DeepSeek官方介绍,使用DeepEP后,某些MoE模型的训练速度可提升数倍,同时降低了对硬件资源的依赖。

wKgZPGe-hzaAY0kcAAFPhfhWeVs959.png

DeepEP的技术性能特点概述:

EP为Expert Parallelism(专家并行),是一种在大规模分布式AI模型训练中使用的技术,能用于提升模型并行处理能力和训练效率。

1、高效通信架构

支持优化的全对全通信模式,实现节点内和节点间的NVLink与RDMA互联,提升数据传输效率

2、多精度与调度优化

原生支持FP8低精度运算调度,降低计算资源消耗。

3、重性能内核

据介绍,高吞吐量内核可适用于训练和推理预填充场景,最大化数据处理能力;

4、低延迟内核

它针对推理解码场景设计,采用纯RDMA通信和自适应路由技术,减少延迟。

5、资源控制与重叠机制

通过灵活的GPU资源控制策略,实现计算与通信过程的高效重叠,避免资源闲置。

6、深度优化场景

针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;

支持SM(Streaming Multiprocessors)数量动态控制,平衡不同任务(如训练与推理)的吞吐量需求。

DeepEP与FlashMLA的对比

DeepSeek在其开源周活动中首个开源的项目是FlashMLA;FlashMLA让AI大模型低成本却有高性能。

DeepSeek扔的第二枚开源王炸是全栈通信库DeepEP。与第一枚开源王炸FlashMLA相比,两者在多个方面存在显著差异。以下是对这两者的详细对比以及外媒的热议:

1. 功能定位:

● DeepEP:它是全球首个面向MoE(Mixture of Experts)模型的全栈通信库,旨在优化GPU之间的信息传输效率,从而极大提升AI模型的训练与推理效率。

● FlashMLA:专为英伟达Hopper架构GPU(如H800/H100)优化的高效MLA解码内核,旨在显著提升AI的加速能力,特别是在处理长短句子并行任务时能够动态调整计算资源分配,避免算力浪费。

2. 技术特点:

● DeepEP:具备高效的全员通信能力,支持NVLink与RDMA技术,提供高吞吐量的训练预填充内核以及低延迟的推理解码内核。原生支持FP8调度,灵活的GPU资源管理能力使得计算和通信可以重叠进行。

● FlashMLA:专为高性能显卡设计,能够充分挖掘显卡性能潜力,被视为AI加速的“涡轮增压器”。

3. 硬件兼容性:

● DeepEP:具有更广泛的硬件兼容性,不受特定GPU架构的限制。

● FlashMLA:目前仅适配Hopper架构GPU,国产GPU的兼容性尚待验证。

DeepSeek的这两枚开源王炸在国际上引起了广泛关注。外媒对DeepSeek的评价普遍较高,认为其打破了人们对人工智能研发需要“高投入、长周期”的传统认知,提供了低成本、高效能的解决方案。同时,DeepSeek的开源策略也被视为一种促进全球科技进步的积极举措。

具体来说,外媒对DeepEP和FlashMLA的关注点有所不同。对于DeepEP,外媒主要关注其在优化GPU通信效率、提升AI模型训练与推理效率方面的潜力。而对于FlashMLA,外媒则更侧重于其在提升AI加速能力、挖掘显卡性能潜力方面的表现。

wKgZPGe-hzaARqqDAAE3up7dZtc800.png




DeepSeek的第二枚开源王炸DeepEP与第一枚开源王炸FlashMLA在功能定位、技术特点、硬件兼容性和开源时间等方面存在显著差异。外媒对这两者的评价普遍积极,认为它们为人工智能领域带来了新的突破和进步。


我们知道每一次技术的突破都可能成为推动行业发展的关键力量。也能够带来更多产业链的机遇。比如AI 能力和性能不断提升,模型的规模和复杂度持续增长,面对信息速率和密度不断提升的AI,技术进步也会遵循摩尔定律,那硬件互连准备好了吗?

DeepSeek启动的“开源周”连续5天(2月24日至28日);欢迎大家继续关注DeepSeek的大招。期待更多让我们惊喜的东西能够面世。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45550
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2799
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    感谢平台提供的书籍,实物如下 这本书主讲从年前开始火热的DeepSeek 。书籍看起来轻薄,但言简意赅,通俗易懂,总览全局,比较精炼。 第一章 介绍DeepSeek的一系列技术突破与创新。 第二
    发表于 07-21 00:04

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    。安装完成后,打开DevEco Studio,创建一个新的鸿蒙应用项目,选择适合的模板(如Empty Ability)。 第二步:安装CodeGPT插件 在DevEco Studio上安装插件:打开
    发表于 03-07 14:56

    摩尔线程全面支持DeepSeek开源周成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashML
    的头像 发表于 03-04 10:06 840次阅读

    FPGA+AI组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    近期,DeepSeek这个名字在AI圈彻底炸开了锅并且关于DeepSeek的消息网络铺天盖地,短视频,朋友圈随处可见不少网友留言称其是“来自东方的神秘力量”又一次震撼海外人士心脏“这太疯狂了
    发表于 03-03 11:21

    摩尔线程支持DeepSeek开源通信库DeepEP和并行算法DualPipe

    DeepSeek开源周第四日,摩尔线程宣布已成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,并发布相关开源代码仓库
    的头像 发表于 02-28 15:58 841次阅读

    DeepSeek宣布开源DeepGEMM

    DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,在Deepseek开源周的第三天Deepseek正式宣布开源DeepGEMM。 据
    的头像 发表于 02-26 15:33 1070次阅读

    DeepSeek第二枚开源是什么,跟第一有何不同?强烈引发外媒热议

    在科技日新月异的今天,每一次技术的突破都可能成为推动行业发展的关键力量。近日,AI领域的独角兽企业DeepSeek,在其开源周活动中连续扔出了两震撼业界的“开源
    的头像 发表于 02-26 11:10 1140次阅读
    <b class='flag-5'>DeepSeek</b><b class='flag-5'>扔</b>的<b class='flag-5'>第二枚</b><b class='flag-5'>开源</b><b class='flag-5'>王</b><b class='flag-5'>炸</b>是什么,跟第一<b class='flag-5'>枚</b>有何不同?强烈引发外媒热议

    沐曦GPU跑通DeepSeek开源代码库FlashMLA

    今日,DeepSeek正式启动"开源周"计划,首发代码库FlashMLA一经开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2K Star!
    的头像 发表于 02-25 16:25 1319次阅读

    百度搜索,能否将DeepSeek变成“内功”?

    实测之后,会发现百度搜索和DeepSeek称得上“组合”
    的头像 发表于 02-21 10:04 2885次阅读
    百度搜索,能否将<b class='flag-5'>DeepSeek</b>变成“内功”?

    鸿蒙原生应用开发也可以使用DeepSeek

    ,请访问华为开发者官网下载并安装最新版本5.0.7.210。安装完成后,打开DevEco Studio,创建一个新的鸿蒙应用项目,选择适合的模板(如Empty Ability)。 第二步:安装
    发表于 02-20 18:06

    Banana Pi开源社区基于瑞芯微RK3588开发板,DeepSeek开发利器

    Banana Pi开源社区基于瑞芯微RK3588开发板,DeepSeek开发利器
    的头像 发表于 02-19 18:25 3202次阅读
    Banana Pi<b class='flag-5'>开源</b>社区基于瑞芯微RK3588开发板,<b class='flag-5'>DeepSeek</b>开发利器

    开源大模型DeepSeek的开放内容详析

    当大家讨论为什么 DeepSeek 能够形成全球刷屏之势,让所有厂商、平台都集成之时,「开源」成为了最大的关键词之一,图灵奖得主 Yann LeCun 称其是「开源的胜利」。模型开源
    的头像 发表于 02-19 09:48 2415次阅读
    <b class='flag-5'>开源</b>大模型<b class='flag-5'>DeepSeek</b>的开放内容详析

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的两个不同定位的大模型,其核心差异主要体现在目标场景、能力侧重和技术优化方向上。以下是者的实
    发表于 02-14 02:08

    deepseek国产芯片加速 DeepSeek的国产AI芯片天团

    遥想两年前,ChatGPT给了世界一记AI冲击,而DeepSeek无疑是第二记冲击。我们不仅对DeepSeek强劲的性能所震撼,也让远在大洋彼岸的OpenAI、谷歌、META等一众玩家感受到莫大压力
    的头像 发表于 02-10 15:07 5056次阅读
    <b class='flag-5'>deepseek</b>国产芯片加速 <b class='flag-5'>DeepSeek</b>的国产AI芯片天团

    深度解析deepseek开源是什么意思

    Deepseek开源是指Deepseek项目的源代码被公开,允许任何人免费查看、使用、修改和分发。
    的头像 发表于 02-06 09:29 4171次阅读