0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

OSC开源社区 来源:OSC开源社区 2024-01-23 11:28 次阅读

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 ——DeepSeekMoE,全新架构,免费商用。

今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。

模型下载:https://huggingface.co/deepseek-ai

微调代码:https://github.com/deepseek-ai/DeepSeek-MoE

技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:

DeepSeekMoE-2B 可接近 MoE 模型的理论上限2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量

DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署

DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能

c8cd958e-b13a-11ee-8b88-92fbcf53809c.pngc8e00fca-b13a-11ee-8b88-92fbcf53809c.png

混合专家模型 (Mixed Expert Models,简称 MoEs)是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。 MoE 核心组成:

专家 (Experts):训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

门控机制 (Gating Mechanism):MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:

细粒度专家划分:不同于传统 MoE 直接从与标准 FFN 大小相同的 N 个专家里选择激活 K 个专家(如 Mistral 7B8 采取 8 个专家选 2 专家),DeepSeekMoE把 N 个专家粒度划分更细,在保证激活参数量不变的情况下,从 mN 个专家中选择激活 mK 个专家(如 DeepSeekMoE 16B 采取 64 个专家选 8 个专家),如此可以更加灵活地组合多个专家

共享专家分离:DeepSeekMoE 把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余

c907f634-b13a-11ee-8b88-92fbcf53809c.png






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98749
  • 智能路由
    +关注

    关注

    0

    文章

    8

    浏览量

    7119
  • 卷积网络
    +关注

    关注

    0

    文章

    41

    浏览量

    2129

原文标题:幻方量化开源国内首个MoE大模型,全新架构、免费商用

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    昆仑万维发布新版MoE大语言模型天工2.0

    昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载
    的头像 发表于 02-06 16:19 827次阅读

    模型开源开放评测体系司南正式发布

    近日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类
    的头像 发表于 02-05 11:28 596次阅读

    万兴科技发布国内首个音视频多媒体大模型“天幕”

    万兴科技近日正式发布国内首个音视频多媒体大模型——万兴“天幕”,并宣布大模型研发中心将正式落户马栏山。
    的头像 发表于 02-04 11:42 853次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布开源模型CodeLlama70B
    的头像 发表于 01-31 10:30 964次阅读

    对标OpenAI GPT-4,MiniMax国内首个MoE大语言模型全量上线

    MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。
    的头像 发表于 01-16 15:34 453次阅读
    对标OpenAI GPT-4,MiniMax<b class='flag-5'>国内</b><b class='flag-5'>首个</b><b class='flag-5'>MoE</b>大语言<b class='flag-5'>模型</b>全量上线

    国内首个农业开源鸿蒙操作系统!中信农业x深开鸿x华为正式发布

    (简称“华为”) 正式对外发布国内首个自主可控的农业开源鸿蒙操作系统 。 发布仪式 该系统将进一步破除农业数据孤岛, 逐步构建深度融合农业
    的头像 发表于 11-29 20:45 726次阅读

    解读大模型FP量化的解决方案

    在 LLaMA, BERT 以及 ViTs 模型上,4-bit 量化皆取得了远超 SOTA 的结果。特别是,这篇文章展示了 4-bit 量化的 LLaMA-13B 模型,在零样本推理任
    发表于 11-24 11:15 358次阅读
    解读大<b class='flag-5'>模型</b>FP<b class='flag-5'>量化</b>的解决方案

    我国首个自主研发的地球系统模型宣布开源

    模型
    北京中科同志科技股份有限公司
    发布于 :2023年11月18日 09:59:01

    【KV260视觉入门套件试用体验】Vitis AI 进行模型校准和来量化

    ;Exporting quant config.(quantize_result/quant_info.json) 这段日志反映使用默认量化配置对模型进行静态量化的整个过程,包括解
    发表于 10-15 10:51

    声智科技联合中国信通院正式发布国内首个金融行业大模型标准

    金融大模型最新消息! 9月,2023可信AI大会暨南京人工智能产业发展大会成功召开,声智科技联合中国信通院正式发布国内首个金融行业大模型标准
    的头像 发表于 09-22 09:58 465次阅读

    可以使用已有的量化表作为输入来完成BModel模型量化吗?

    可以使用已有的量化表(比如 TensorRT 量化后得到的量化表)作为输入 来完成BModel模型量化吗?
    发表于 09-19 06:04

    为什么量化caffe模型完,模型的input_shape被output_shape替换了?

    使用model_transform.py和model_deploy把caffe模型bf16量化成cvimodel,原模型的输入shape是3*112*112,输出是2*1*1,量化完测
    发表于 09-18 07:19

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    HHB 实现在典型网络性能比第三工具平均提升 88%,并增加支持运行 Transformer、TensorFlow、PyTorch 等 170 余个主流框架 AI 模型。 基于此,平头哥
    发表于 08-26 14:14

    YOLOv8模型ONNX格式INT8量化轻松搞定

    深度学习模型量化支持深度学习模型部署框架支持的一种轻量化模型与加速模型推理的一种常用手段,ONN
    的头像 发表于 07-18 09:34 2378次阅读
    YOLOv8<b class='flag-5'>模型</b>ONNX格式INT8<b class='flag-5'>量化</b>轻松搞定

    中国首个铝基轻量化平台!奇瑞这样做?

    奇瑞控股集团党委书记、董事长尹同跃表示,“中国首个铝基轻量化平台的发布以及奇瑞eQ7首台量产车的正式下线,是‘技术奇瑞’在汽车新能源化、智能化下半场的创新实践中,交上的一份新答卷。
    的头像 发表于 07-13 14:30 419次阅读