0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI初创企业推MoE混合专家模型架构新品abab 6.5

微云疏影 来源:综合整理 作者:综合整理 2024-04-17 15:06 次阅读

4 月 17 日,国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型:

losoev 6.5:拥有万亿级别的参数,可处理 200k tokens 的上下文长度;

losoev 6.5s:与 losoev 6.5 共享相同的训练技术和数据,但效率更高,同样支持 200k tokens 的上下文长度,且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来,MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段,在加速模型扩展方面取得了显著进展。

在 200k token 的范围内,官方对 losoev 6.5 进行了业内常见的“大海捞针”测试,即将一句与原文无关的句子插入长文本中,然后通过自然语言询问模型,观察其能否准确识别出这句话。经过 891 次测试,losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品,如海螺 AI 和 MiniMax 开放平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4459

    浏览量

    90770
  • 人工智能
    +关注

    关注

    1777

    文章

    43920

    浏览量

    230663
  • 模型
    +关注

    关注

    1

    文章

    2709

    浏览量

    47716
收藏 人收藏

    评论

    相关推荐

    MOE与MOT:提升LLM效能的关键策略比较

    MoE 与 MoT:在专家混合中(左),每个令牌都被路由到不同的专家前馈层。在令牌混合(右)中,每组内的令牌被
    的头像 发表于 04-15 09:53 186次阅读
    <b class='flag-5'>MOE</b>与MOT:提升LLM效能的关键策略比较

    微软支付6.5亿美元获得Inflection AIAI模型授权

    微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金,这一举动在业内引起了广泛关注。据悉,这笔资金主要用于获得Inflection AI
    的头像 发表于 03-25 10:39 248次阅读

    苹果发布300亿参数MM1多模态大模型

    近日,科技巨头苹果公司在一篇由多位专家共同撰写的论文中,正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态模型系列,由密集模型
    的头像 发表于 03-19 11:19 307次阅读

    微软携手法国AI初创企业Mistral推动AI模型商业化

    微软近日与法国人工智能初创企业Mistral达成合作协议,旨在推动AI模型的商业化应用。据悉,微软将提供全方位支持,帮助这家成立仅10个月的公司将其先进的
    的头像 发表于 02-28 10:23 170次阅读

    昆仑万维发布新版MoE大语言模型天工2.0

    昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载MoE架构
    的头像 发表于 02-06 16:19 833次阅读

    幻方量化发布了国内首个开源MoE模型—DeepSeekMoE

    幻方量化旗下组织深度求索发布了国内首个开源 MoE模型 —— DeepSeekMoE,全新架构,免费商用。
    的头像 发表于 01-23 11:28 507次阅读
    幻方量化发布了国内首个开源<b class='flag-5'>MoE</b>大<b class='flag-5'>模型</b>—DeepSeekMoE

    对标OpenAI GPT-4,MiniMax国内首个MoE大语言模型全量上线

    MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家
    的头像 发表于 01-16 15:34 461次阅读
    对标OpenAI GPT-4,MiniMax国内首个<b class='flag-5'>MoE</b>大语言<b class='flag-5'>模型</b>全量上线

    混合专家模型 (MoE)核心组件和训练方法介绍

    随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs
    的头像 发表于 01-13 09:37 504次阅读
    <b class='flag-5'>混合</b><b class='flag-5'>专家</b><b class='flag-5'>模型</b> (<b class='flag-5'>MoE</b>)核心组件和训练方法介绍

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    2023 NVIDIA 初创企业展示深圳站圆满收官!

    9 月 15 日,2023 NVIDIA 初创企业展示华南分站(深圳)专场圆满收官。 NVIDIA 初创企业展示深圳站大合影 此次深圳站专场主要聚焦大语言
    的头像 发表于 09-19 20:20 555次阅读
    2023 NVIDIA <b class='flag-5'>初创</b><b class='flag-5'>企业</b>展示深圳站圆满收官!

    华为发布大模型时代AI存储新品

    7月14日,华为发布大模型时代AI存储新品, 为基础模型训练、行业模型训练,细分场景模型训练推理
    的头像 发表于 07-14 15:20 546次阅读
    华为发布大<b class='flag-5'>模型</b>时代<b class='flag-5'>AI</b>存储<b class='flag-5'>新品</b>

    用22000个英伟达H100入局AI初创企业的豪赌

    Inflection 新一轮融资的规模反映出投资者对开创生成式 AI初创公司的热情高涨,尤其是那些创建底层大语言模型 (LLM) 的公司,这些公司是当前 AI 热潮的核心。近几个月
    的头像 发表于 07-07 15:52 359次阅读
    用22000个英伟达H100入局<b class='flag-5'>AI</b>,<b class='flag-5'>初创</b><b class='flag-5'>企业</b>的豪赌

    混合AIAI的未来》| 高通AI白皮书发布

    成为现实。 混合AI将支持生成式AI应用开发者和提供商利用边缘侧终端的计算能力降低成本。混合AI架构
    的头像 发表于 06-16 12:45 755次阅读
    《<b class='flag-5'>混合</b><b class='flag-5'>AI</b>是<b class='flag-5'>AI</b>的未来》| 高通<b class='flag-5'>AI</b>白皮书发布

    “下一个百亿规模AIGC产品”揭晓,墨芯人工智能上榜

    MoE(稀疏门控的专家混合层)及Pathways架构等,都是稀疏计算理念的成果,并在实践中取得比稠密模型更高的效率。
    的头像 发表于 06-02 15:45 961次阅读
    “下一个百亿规模AIGC产品”揭晓,墨芯人工智能上榜

    AI助力初创企业:运用机器学习解决问题

    初创企业将一些最具创新性的产品和服务推向市场,但通常要少量工具、手动操作以及不断拓展专业知识的人员。人工智能 (AI),尤其是机器学习 (ML) 和深度学习 (DL),正在通过自动化流程和减少工作量
    的头像 发表于 05-16 10:46 457次阅读
    <b class='flag-5'>AI</b>助力<b class='flag-5'>初创</b><b class='flag-5'>企业</b>:运用机器学习解决问题