AI初创企业推MoE混合专家模型架构新品abab 6.5-电子发烧友网

AI初创企业推MoE混合专家模型架构新品abab 6.5

4 月 17 日，国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型，其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型：

losoev 6.5：拥有万亿级别的参数，可处理 200k tokens 的上下文长度；

losoev 6.5s：与 losoev 6.5 共享相同的训练技术和数据，但效率更高，同样支持 200k tokens 的上下文长度，且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来，MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段，在加速模型扩展方面取得了显著进展。

在 200k token 的范围内，官方对 losoev 6.5 进行了业内常见的“大海捞针”测试，即将一句与原文无关的句子插入长文本中，然后通过自然语言询问模型，观察其能否准确识别出这句话。经过 891 次测试，losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品，如海螺 AI 和 MiniMax 开放平台。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4459

浏览量
90770
人工智能

人工智能

+关注

关注
1777

文章
43920

浏览量
230663
模型

模型

+关注

关注
1

文章
2709

浏览量
47716

MOE与MOT：提升LLM效能的关键策略比较

MoE 与 MoT：在专家混合中（左），每个令牌都被路由到不同的专家前馈层。在令牌混合（右）中，每组内的令牌被

发表于 04-15 09:53 •186次阅读

<b class='flag-5'>MOE</b>与MOT：提升LLM效能的关键策略比较

微软支付6.5亿美元获得Inflection AI的AI模型授权

微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金，这一举动在业内引起了广泛关注。据悉，这笔资金主要用于获得Inflection AI的

发表于 03-25 10:39 •248次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态模型系列，由密集模型和

发表于 03-19 11:19 •307次阅读

微软携手法国AI初创企业Mistral推动AI模型商业化

微软近日与法国人工智能初创企业Mistral达成合作协议，旨在推动AI模型的商业化应用。据悉，微软将提供全方位支持，帮助这家成立仅10个月的公司将其先进的

发表于 02-28 10:23 •170次阅读

昆仑万维发布新版MoE大语言模型天工2.0

昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载MoE架构

发表于 02-06 16:19 •833次阅读

幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE，全新架构，免费商用。

发表于 01-23 11:28 •507次阅读

对标OpenAI GPT-4，MiniMax国内首个MoE大语言模型全量上线

MoE 架构全称专家混合（Mixture-of-Experts），是一种集成方法，其中整个问题被分为多个子任务，并将针对每个子任务训练一组专家

发表于 01-16 15:34 •461次阅读

混合专家模型 (MoE)核心组件和训练方法介绍

随着 Mixtral 8x7B (announcement, model card) 的推出，一种称为混合专家模型 (Mixed Expert Models，简称 MoEs

发表于 01-13 09:37 •504次阅读

AI大模型可以设计电路吗?

AI大模型

电子发烧友网官方
发布于 :2024年01月02日 15:09:29

2023 NVIDIA 初创企业展示深圳站圆满收官！

9 月 15 日，2023 NVIDIA 初创企业展示华南分站（深圳）专场圆满收官。 NVIDIA 初创企业展示深圳站大合影此次深圳站专场主要聚焦大语言

发表于 09-19 20:20 •555次阅读

华为发布大模型时代AI存储新品

7月14日，华为发布大模型时代AI存储新品，为基础模型训练、行业模型训练，细分场景模型训练推理

发表于 07-14 15:20 •546次阅读

用22000个英伟达H100入局AI，初创企业的豪赌

Inflection 新一轮融资的规模反映出投资者对开创生成式 AI 的初创公司的热情高涨，尤其是那些创建底层大语言模型 (LLM) 的公司，这些公司是当前 AI 热潮的核心。近几个月

发表于 07-07 15:52 •359次阅读

《混合AI是AI的未来》| 高通AI白皮书发布

成为现实。混合AI将支持生成式AI应用开发者和提供商利用边缘侧终端的计算能力降低成本。混合AI架构

发表于 06-16 12:45 •755次阅读

“下一个百亿规模AIGC产品”揭晓，墨芯人工智能上榜

的MoE（稀疏门控的专家混合层）及Pathways架构等，都是稀疏计算理念的成果，并在实践中取得比稠密模型更高的效率。

发表于 06-02 15:45 •961次阅读

AI助力初创企业：运用机器学习解决问题

初创企业将一些最具创新性的产品和服务推向市场，但通常要少量工具、手动操作以及不断拓展专业知识的人员。人工智能 (AI)，尤其是机器学习 (ML) 和深度学习 (DL)，正在通过自动化流程和减少工作量

发表于 05-16 10:46 •457次阅读