4 月 17 日,国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。
losoev 6.5 系列包含两款模型:
losoev 6.5:拥有万亿级别的参数,可处理 200k tokens 的上下文长度;
losoev 6.5s:与 losoev 6.5 共享相同的训练技术和数据,但效率更高,同样支持 200k tokens 的上下文长度,且能够在 1 秒钟内处理近 3 万字的文本。
自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来,MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段,在加速模型扩展方面取得了显著进展。
在 200k token 的范围内,官方对 losoev 6.5 进行了业内常见的“大海捞针”测试,即将一句与原文无关的句子插入长文本中,然后通过自然语言询问模型,观察其能否准确识别出这句话。经过 891 次测试,losoev 6.5 均能准确回答问题。
losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品,如海螺 AI 和 MiniMax 开放平台。
-
算法
+关注
关注
23文章
4760浏览量
97136 -
人工智能
+关注
关注
1813文章
49734浏览量
261477 -
模型
+关注
关注
1文章
3648浏览量
51710
发布评论请先 登录
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片
【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2
【「DeepSeek 核心技术揭秘」阅读体验】+混合专家
【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘
华为宣布开源盘古7B稠密和72B混合专家模型
华为正式开源盘古7B稠密和72B混合专家模型
首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手
字节豆包大模型团队推出UltraMem稀疏架构
DeepSeek:引领全球AI竞赛的中国新范式
解析DeepSeek MoE并行计算优化策略

AI初创企业推MoE混合专家模型架构新品abab 6.5
评论