0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI初创企业推MoE混合专家模型架构新品abab 6.5

微云疏影 来源:综合整理 作者:综合整理 2024-04-17 15:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4 月 17 日,国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型:

losoev 6.5:拥有万亿级别的参数,可处理 200k tokens 的上下文长度;

losoev 6.5s:与 losoev 6.5 共享相同的训练技术和数据,但效率更高,同样支持 200k tokens 的上下文长度,且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来,MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段,在加速模型扩展方面取得了显著进展。

在 200k token 的范围内,官方对 losoev 6.5 进行了业内常见的“大海捞针”测试,即将一句与原文无关的句子插入长文本中,然后通过自然语言询问模型,观察其能否准确识别出这句话。经过 891 次测试,losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品,如海螺 AI 和 MiniMax 开放平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97136
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261477
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    图解AI核心技术:大模型、RAG、智能体、MCP

    和使用AI。 大模型 Transformer vs. Mixture of Experts 混合专家 (MoE) 是一种流行的
    的头像 发表于 10-21 09:48 396次阅读
    图解<b class='flag-5'>AI</b>核心技术:大<b class='flag-5'>模型</b>、RAG、智能体、MCP

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    优化计算资源并有效地适应任务的复杂性。 显著特征: MoE 模型的一个显著特征是在管理大型数据集方面的灵活性较高,它能够在计算效率小幅降低的情况下,将模型容量扩大上千倍。稀疏门控混合
    发表于 09-18 15:31

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升
    的头像 发表于 09-06 15:21 914次阅读
    大规模<b class='flag-5'>专家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2

    时,它的权重就会增大,而当它的误差大于此加权平均值时,它的权重就会减小。所以,使用这种损失函数训练出来的模型,各专家网络之间是竞争关系,而不是合作关系。正是这种“竞争上岗”的模式,形成了动态加载的效果
    发表于 08-23 17:00

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (
    的头像 发表于 08-12 15:19 3803次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    逻辑,硬件性能的成本选择,达到的效果, 最后是对人工智能的影响。 Deepseek在技术思路上,采用混合专家系统MoE架构(思维模块),MoE
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    数据中挖掘有价值信息,这也让我意识到架构设计对模型性能起着根本性作用,是 AI 具备强大能力的 “骨骼” 支撑。 二、流水线并行 书中关于流水线并行的内容,展现了提升计算效率的巧妙思路。简单流水线并行虽
    发表于 07-20 15:07

    华为宣布开源盘古7B稠密和72B混合专家模型

    电子发烧友网综合报道 2025年6月30日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型及基于昇
    的头像 发表于 07-06 05:51 7086次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇
    的头像 发表于 06-30 11:19 1107次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    套件2.0全面支持 DeepSeek四大关键技术:混合专家模型MoE)、多Token预测(MTP)多头潜在注意力(MLA)、FP8推理(FP8 Inferencing),实现Toke
    发表于 04-13 19:52

    字节豆包大模型团队推出UltraMem稀疏架构

    的应用提供了有力支持。 据介绍,UltraMem架构针对MoE(Mixture of Experts,专家混合)模型推理时存在的高额访存问题
    的头像 发表于 02-13 11:17 1060次阅读

    DeepSeek:引领全球AI竞赛的中国新范式

    的价值重估,DeepSeek现象折射出中国AI产业发展的新逻辑。这家成立仅两年的初创企业,不仅连续推出性能对标GPT-4的MoE混合
    的头像 发表于 02-09 10:31 1425次阅读

    DeepSeek对芯片算力的影响

    DeepSeek模型,尤其是其基于MOE混合专家架构的DeepSeek-V3,对芯片算力的要求产生了深远影响。为了更好地理解这一影响,我
    的头像 发表于 02-07 10:02 1616次阅读
    DeepSeek对芯片算力的影响

    解析DeepSeek MoE并行计算优化策略

    本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的
    的头像 发表于 02-07 09:20 2697次阅读
    解析DeepSeek <b class='flag-5'>MoE</b>并行计算优化策略

    企业AI模型部署攻略

    当下,越来越多的企业开始探索和实施AI模型,以提升业务效率和竞争力。然而,AI模型的部署并非易事,需要
    的头像 发表于 12-23 10:31 1296次阅读