0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

昆仑万维开源2千亿稀疏大模型Skywork-MoE

CHANBAEK 来源:网络整理 2024-06-04 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,昆仑万维公司宣布开源一款名为Skywork-MoE的稀疏大模型,该模型拥有高达2千亿参数,不仅性能强劲,而且推理成本更低,为人工智能领域带来了新的突破。

Skywork-MoE基于昆仑万维之前开源的Skywork-13B模型进行扩展,是首个完整应用并落地的开源千亿MoE大模型。MoE(Mixture of Experts)技术在此模型中得到了充分的应用,使得模型在处理复杂任务时能够更加高效和准确。

值得一提的是,Skywork-MoE还是首个支持用单台4090服务器推理的开源千亿MoE大模型。这一特性极大地降低了模型的使用门槛,使得更多的企业和研究机构能够轻松地使用这一强大的模型进行研究和应用。

昆仑万维公司表示,Skywork-MoE的模型权重和技术报告将完全开源,并免费提供给商业使用。这一举措将极大地推动人工智能领域的发展,为更多的企业和研究机构提供强大的技术支持和合作机会。

Skywork-MoE的开源不仅展示了昆仑万维公司在人工智能领域的技术实力,也体现了公司对于推动行业发展的坚定承诺。未来,我们期待看到更多基于Skywork-MoE的优秀应用和研究成果的出现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49757

    浏览量

    261686
  • 开源
    +关注

    关注

    3

    文章

    4039

    浏览量

    45579
  • 大模型
    +关注

    关注

    2

    文章

    3455

    浏览量

    4974
  • 昆仑万维
    +关注

    关注

    0

    文章

    17

    浏览量

    101
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio
    的头像 发表于 10-21 11:11 557次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio<b class='flag-5'>2</b>Face<b class='flag-5'>模型</b>及SDK

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwe
    的头像 发表于 09-06 15:21 935次阅读
    大规模专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2

    )# [batch] return weighted_mse.mean()# 批次平均 在 MoE 模型中使用 class MoE(nn.Module): def __init__(self
    发表于 08-23 17:00

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言
    的头像 发表于 08-12 15:19 3838次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    华为宣布开源盘古7B稠密和72B混合专家模型

    电子发烧友网综合报道 2025年6月30日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型及基于昇腾的模型
    的头像 发表于 07-06 05:51 7103次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型
    的头像 发表于 06-30 11:19 1124次阅读

    华为助力中国石油发布3000亿参数昆仑模型

    5月28日,中国石油发布3000亿参数昆仑模型,标志着中国石油在人工智能领域又迈出关键一步,全力推动“人工智能+”行动走深走实。   中国石油发布3000亿参数昆仑模型     从
    的头像 发表于 05-29 09:19 905次阅读
    华为助力中国石油发布3000亿参数<b class='flag-5'>昆仑</b>大<b class='flag-5'>模型</b>

    从炫技到实用,天工超级智能体(Skywork Super Agents)的破冰之旅

    刷新GAIA榜单,昆仑万维定义下一代AI Agent
    的头像 发表于 05-23 11:26 2518次阅读
    从炫技到实用,天工超级智能体(<b class='flag-5'>Skywork</b> Super Agents)的破冰之旅

    Q1收入猛增46%,AI出海致富的秘密,藏在昆仑万维财报里

    昆仑万维,一家中国AI公司的商业化突围
    的头像 发表于 05-07 10:22 2280次阅读
    Q1收入猛增46%,AI出海致富的秘密,藏在<b class='flag-5'>昆仑</b><b class='flag-5'>万维</b>财报里

    基于1F1B的MoE A2A通信计算Overlap

    MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,对训练效率影响很大,特别是对于 Fine-grained MoE model,EP s
    的头像 发表于 03-10 14:17 1103次阅读
    基于1F1B的<b class='flag-5'>MoE</b> A<b class='flag-5'>2</b>A通信计算Overlap

    OpenVINO™ Toolkit中如何保持模型稀疏性?

    OpenVINO™ Toolkit 中支持的优化方法,保持模型稀疏性。
    发表于 03-06 06:47

    字节豆包大模型团队提出稀疏模型架构

    字节跳动豆包大模型Foundation团队近期研发出UltraMem,一种创新的稀疏模型架构,旨在解决推理过程中的访存问题,同时确保模型效果不受影响。
    的头像 发表于 02-13 15:25 1028次阅读

    字节豆包大模型团队推出UltraMem稀疏架构

    的应用提供了有力支持。 据介绍,UltraMem架构针对MoE(Mixture of Experts,专家混合)模型推理时存在的高额访存问题进行了优化。传统MoE模型在推理时,由于需要
    的头像 发表于 02-13 11:17 1070次阅读

    解析DeepSeek MoE并行计算优化策略

    本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的开源与快速部署预示着国产AI网络自主自控将大
    的头像 发表于 02-07 09:20 2718次阅读
    解析DeepSeek <b class='flag-5'>MoE</b>并行计算优化策略

    字节跳动发布豆包大模型1.5 Pro

    3.5 Sonnet等模型。 该模型采用大规模稀疏MoE架构,使用较小的激活参数进行预训练,却能等效7倍激活参数的Dense模型性能,远超
    的头像 发表于 01-23 10:24 1135次阅读