0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

OSC开源社区 来源:OSC开源社区 2024-01-23 11:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 ——DeepSeekMoE,全新架构,免费商用。

今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。

模型下载:https://huggingface.co/deepseek-ai

微调代码:https://github.com/deepseek-ai/DeepSeek-MoE

技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:

DeepSeekMoE-2B 可接近 MoE 模型的理论上限2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量

DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署

DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能

c8cd958e-b13a-11ee-8b88-92fbcf53809c.pngc8e00fca-b13a-11ee-8b88-92fbcf53809c.png

混合专家模型 (Mixed Expert Models,简称 MoEs)是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。 MoE 核心组成:

专家 (Experts):训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

门控机制 (Gating Mechanism):MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:

细粒度专家划分:不同于传统 MoE 直接从与标准 FFN 大小相同的 N 个专家里选择激活 K 个专家(如 Mistral 7B8 采取 8 个专家选 2 专家),DeepSeekMoE把 N 个专家粒度划分更细,在保证激活参数量不变的情况下,从 mN 个专家中选择激活 mK 个专家(如 DeepSeekMoE 16B 采取 64 个专家选 8 个专家),如此可以更加灵活地组合多个专家

共享专家分离:DeepSeekMoE 把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余

c907f634-b13a-11ee-8b88-92fbcf53809c.png






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106803
  • 智能路由
    +关注

    关注

    0

    文章

    9

    浏览量

    7217
  • 卷积网络
    +关注

    关注

    0

    文章

    43

    浏览量

    3161
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2813

原文标题:幻方量化开源国内首个MoE大模型,全新架构、免费商用

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwe
    的头像 发表于 09-06 15:21 925次阅读
    大规模专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    中科曙光发布国内首个开放架构AI超集群系统

    9月5日,在2025重庆世界智能产业博览会上,中科曙光发布国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统。该系统以GPU为核心,实现
    的头像 发表于 09-06 09:11 1168次阅读

    华为宣布开源盘古7B稠密和72B混合专家模型

    关键一步,为全球开发者、企业及研究人员提供强大的技术支撑。   华为此次开源行动涵盖三大核心板块:盘古Pro MoE 72B模型权重与基础推理代码已率先上线
    的头像 发表于 07-06 05:51 7100次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型
    的头像 发表于 06-30 11:19 1119次阅读

    瑞芯微模型量化文件构建

    模型是一张图片输入时,量化文件如上图所示。但是我现在想量化deepprivacy人脸匿名模型,他的输入是四个输入。该模型训练时数据集只标注
    发表于 06-13 09:07

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源
    的头像 发表于 05-08 11:45 2595次阅读
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳实践

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    似乎国内外AI竞争日趋白热化,就在阿里巴巴发布Qwen3(通义千问3)之后,引发业界广泛关注;很多大厂在跟进,大模型不断上新: 阿里巴巴开源新一代通义千问
    的头像 发表于 04-30 16:08 1129次阅读

    NVIDIA发布全球首个开源人形机器人基础模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技术,助力人形机器人开发。其中包括全球首个开源且完全可定制的基础模型NVIDIA Isaac GR00T N1,该模型可赋能通用人形机器人实现推理及各项
    的头像 发表于 03-20 14:34 1224次阅读

    英伟达GROOT N1 全球首个开源人形机器人基础模型

    英伟达GROOT N1 全球首个开源人形机器人基础大模型
    的头像 发表于 03-20 11:05 1709次阅读

    首个Mamba系列模型量化方案MambaQuant解读

    MambaQuant在Mamba系列模型上实现W8A8/W4A8量化的方法,精度逼近浮点,超过Quarot等SOTA方法。该工作已被人工智能顶会ICLR-2025接收。
    的头像 发表于 03-05 11:10 1009次阅读
    <b class='flag-5'>首个</b>Mamba系列<b class='flag-5'>模型</b><b class='flag-5'>量化</b>方案MambaQuant解读

    DeepSeek扔的第二枚开源王炸是什么

    。 DeepSeek在其开源周活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。   在25日,也就是DeepSeek开源周的第二天,DeepSeek发布
    的头像 发表于 02-26 11:05 1290次阅读
    DeepSeek扔的第二枚<b class='flag-5'>开源</b>王炸是什么

    解析DeepSeek MoE并行计算优化策略

    本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的开源与快速部署预示着国产AI网络自主自控将大
    的头像 发表于 02-07 09:20 2710次阅读
    解析DeepSeek <b class='flag-5'>MoE</b>并行计算优化策略

    Meta组建四大专研小组,深入探索DeepSeek模型

    近日,据报道,脸书母公司Meta为了提升其大模型Llama的性能,专门成立了四个研究小组,深入探索量化巨头量化旗下的国产大
    的头像 发表于 02-05 14:02 710次阅读

    字节跳动发布豆包大模型1.5 Pro

    字节跳动正式发布豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型综合能力显著增强,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT - 4o、Cl
    的头像 发表于 01-23 10:24 1128次阅读

    阶跃星辰发布国内首个千亿参数端到端语音大模型

    近日,阶跃星辰在官方公众号上宣布一项重大突破——推出Step-1o千亿参数端到端语音大模型。该模型被誉为“国内首个千亿参数端到端语音大
    的头像 发表于 12-17 13:43 1060次阅读