0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Mistral发布Mistral Large旗舰模型,但没有开源

甲子光年 来源:甲子光年 2024-02-27 13:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

昨夜,被称为“法国版 OpenAI”的 Mistral AI 再放大招,正式发布 Mistral Large 旗舰模型,并且推出对标 ChatGPT 的对话产品:Le Chat,直接杀到 OpenAI 家门口。

就在 Mistral Large 发布前几个小时,全球市值第一的微软宣布与 Mistral AI 达成深度合作。未来,Mistral AI 将获得 OpenAI 同等待遇,直接将模型资源放在微软云当中售卖,成为第二家在微软 Azure 云平台上提供商业 AI 模型的公司。

据Mistral AI CEO Arthur Mensch 透露,开发这款新模型的成本不到 2000 万欧元(约合 2200 万美元)。

另外据外媒报道,微软收购了少数 MistralAI的股权,这意味着在投资 OpenAI 之后,Mistral AI 成为微软投资的第二家大模型公司。

但是,作为开源公司出道的 Mistral AI ,并没有将这款新旗舰模型开源。对此,埃隆·马斯克评价道:“微软是否让它们成为闭源代码?”

Mistral AI 是否走上了 OpenAI 开源再闭源的老路?

1.Mistral Large 性能直逼 GPT-4

据官方新闻稿介绍,Mistral Large 是 Mistral AI 的最新旗舰版,达到了顶级的推理能力。它可以用于复杂的多语言推理任务,包括文本理解、转换和代码生成。

在常用基准测试上 Mistral Large 表现强劲,以 81.2% 的成绩超越了Claude 2、Gemini Pro、GPT-3.5、Llama 2-70B 四款模型,仅次于 GPT-4。

10cfef04-d52f-11ee-a297-92fbcf53809c.png

在MMLU(测量大规模多任务语言理解)上,GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5和LLaMA 2 70B的比较。

Mistral Large 具有以下特点:

它在英语、法语、西班牙语、德语和意大利语方面具有天然的流利度,对语法和文化背景有细腻的理解。

它的 32K token 上下文窗口允许从大型文档中精确地回忆信息。

它精确的指令遵循能力使开发者能够设计他们的审核政策——Mistral AI 用它来设置 Le Chat 的系统级审核。

它天然具备函数调用能力。这一点,加上在 la Plateforme 上实施的受限输出模式,使得应用开发和技术栈现代化能够规模化进行。

和常用基准测试上的顶级 LLM 模型相比,Mistral Large 也表现不俗。

推理和知识

10ded866-d52f-11ee-a297-92fbcf53809c.png

市场上顶级LLM模型在广泛常识、推理和知识基准测试上的性能:MMLU(测量大规模多任务语言理解)、HellaSwag(10-shot)、Wino Grande(5-shot )、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(55-shot)和TruthfulQA。

多语言能力

Mistral Large 还是一个语言方面的“多面手”。在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和MMLU 基准测试中,它的表现远远超过 LLaMA 2 70B。

1101161a-d52f-11ee-a297-92fbcf53809c.png

在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU上,Mistral Large、Mixtral 8x7B和LLaMA 2 70B的比较。

数学和编码

Mistral Large 不仅有强大的语言天赋,数学和编码所代表的逻辑能力也很强。

1117c2f2-d52f-11ee-a297-92fbcf53809c.png

市场上领先LLM模型在流行的编码和数学基准测试上的性能:HumanEval pass@1、MBPP pass@1、Math maj@4、GSM8K maj@8(8-shot )和GSM8K maj@1(5-shot )。

这次和 Mistral Large 一起面世的,还有一个更“小而美”的 Mistral Small。Mistral Small 的性能超过 Mixtral 8x7B,并且延迟更低,这使它成为开放权重产品和旗舰模型之间的一个精细的中间解决方案。

Mistral Small 和 Mistral Large 在 RAG 启用和函数调用方面都有相同的创新。

目前,开发者可从两个渠道获取Mistral AI:

La Plateforme:在欧洲的 Mistral 基础设施上安全托管,这个接入点使开发者能够在全面的模型范围内创建应用和服务。

Azure:Mistral Large 可以通过 Azure AI Studio 和 Azure Machine Learning 获得,用户体验与 API 一样无缝。Beta 客户已经成功使用了它。

自我部署:Mistral Large 环境上部署,并且可以访问模型权重。

Mistral Large 在 Azure AI 上的定价如下:输出为 0.024 美元 / 1000 token,输入为 0.008 美元 / 1000 token。相比之下,128K 上下文窗口的 GPT-4 Turbo 定价为:输出为 0.03 美元/1000 token,输入 0.01 美元/ 1000 token。

此外,Mistral AI 还还发布了首个对标 ChatGPT 的对话助手 Le Chat,该助手可以在后台使用 Mistral Large 或 Mistral Small,或者一个名为 Mistral Next 的原型模型;并发布了面向企业的 Le Chat Enterprise。 值得注意的是,Le Chat 目前还不支持联网功能。

2.Mistral AI 与 OpenAI 相争,微软成最大赢家 ?

Mistral AI 创始人 Guillaume Lample 在X上官宣 Mistral Large 后,图灵奖获得者、Meta 首席科学家 Yann LeCun(杨立昆)一改往日对 OpenAI 的苛刻态度,第一时间发来祝贺

还有热心网友向杨立昆发来关切,并鼓励其发布完全开源的 LLama 3。

对此,杨立昆则希望网友多点耐心。

事实上,Mistral AI 这个成立不到 10 个月的年轻团队大有扭转局面的气势。

Mistral AI 公司成立于 2023 年 5 月,总部位于法国巴黎,以一己之力将 LLM 的聚光灯从中美的主战场拉向了欧洲。

Mistral AI 是开源、小模型领域的“先锋”选手。

Mistral AI 在 2023 年 9 月推出开源的 7B 模型,发布时间晚于 LLama 2,但并未被 LLama 2 抢了风头。其越级达到了大部分模型 20B 左右的水平,实际使用时进一步微调的表现也比其他模型更容易学到领域专用知识,得到很多开源和企业使用者的认可。

Mistral 创始团队以年轻科学家为主,其中 7 人来自 Meta(4位是 Llama 的参与者),3人来自 Hugging Face,2人来 Deepmind;之前领导过 Llama 1&2、Flamingo(Google DeepMind 论文,GPT-4V 外最重要的多模态模型)、Chinchilla(Google DeepMind 论文,建立了模型数据与参数量的标准)、RETRO(Google DeepMind 论文,第一个结合 Retrieval 和 LLM 的大模型)、BLOOM(Llama 1 出现前的最重要开源模型)等重要模型。

Mistral AI 的管理层一共四人。

其中,CEO Arthur Mensch 来自 Deepmind,参与了 Deepmind 的多个经典的模型:Flamingo、Chinchilla、Gopher。

CTO 和 首席科学家分别是 Llama & Llama2 的核心工程、研究角色(由于离职,并未在 Llama2 论文中体现)。Chief Business Officer Florian 则由创始顾问,Alan 的 CEO 推荐加入。

目前,Mistral 已完成了三轮公开融资,总额超过6亿美元。

2023 年 6 月,公司完成 1.05 亿欧元(约合 1.13 亿美元)的种子轮融资,由 Lightspeed Venture Partners(光速创投)领投,投后估值 2.4 亿欧元;

2023 年 12 月,Mistral 完成由 Andreessen Horowitz(a16z)领投,英伟达、Salesforce、法国巴黎银行、美国风投机构 General Catalyst 等投资的 3.85 亿欧元(约合 4.15 亿美元)融资。

2024 年 2 月,微软入股 Mistral。

据悉,Mistral公司估值已超过20亿欧元(约合156.2亿元人民币),成为 AI 领域的独角兽公司

自成立以来,Mistral AI 便被认为是 OpenAI 有力的竞争对手,并一直坚定站在 OpenAI 的“反面——OpenAI 闭源,Mistral AI 开源;OpenAI 坚定地走“大数据+大算力+大规模参数”的暴力美学路径,Mistral AI 则掀起一轮“小模型”热潮,在 7B 规模下不断再创辉煌。

不过,在OpenAIMistralAI的较量中,微软或成最大的赢家,将两条路线均收入囊中。

此次,微软与 Mistral AI 的合作重点关注三个核心领域:

超级计算基础设施:微软将通过 Azure AI 超级计算基础设施来支持 Mistral AI,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模。

扩展到市场:微软和 Mistral AI 将通过Azure AI Studio和Azure 机器学习模型目录中的模型即服务 (MaaS) 向客户提供 Mistral AI 的高级模型。除了 OpenAI 模型之外,模型目录还提供开源和商业模型的多种选择。开发者可使用 Microsoft Azure 消费承诺 (MACC)来购买 Mistral AI 的模型。Azure 的 AI 优化基础设施和企业级功能为 Mistral AI 提供了向全球 Microsoft 客户推广、销售和分发其模型的额外机会。

人工智能研究和开发:微软和 Mistral AI 将探索围绕为特定客户(包括欧洲公共部门工作负载)培训特定目的模型的合作。

此外,据英国《金融时报》报道,微软对Mistral AI进行了小额投资,但不持有该公司任何股权。


审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • OpenAI
    +关注

    关注

    9

    文章

    1248

    浏览量

    10263
  • ChatGPT
    +关注

    关注

    31

    文章

    1599

    浏览量

    10390
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394

原文标题:Mistral获微软投资,发布旗舰模型Mistral Large,但没有开源|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智谱新一代旗舰模型GLM-5.1上线华为云

    4月8日,智谱正式发布新一代旗舰模型GLM-5.1,发布当天已上线华为云,并成功对接华为云多款产品。该模型整体能力全面提升,是目前全球最强的
    的头像 发表于 04-10 10:11 222次阅读

    昆仑芯率先完成智谱新一代旗舰模型GLM-5.1深度支持

    今日,智谱正式开源新一代旗舰模型GLM-5.1。作为当前全球领先的开源模型之一,GLM-5.1在长程任务(Long Horizon Tas
    的头像 发表于 04-09 17:31 1167次阅读

    壁仞科技壁砺166系列产品Day 0适配智谱GLM-5.1旗舰模型

    4月8日,智谱正式上线并开源新一代旗舰模型GLM-5.1。作为目前全球最强的开源模型,GLM-5.1在长程任务(Long Horizon T
    的头像 发表于 04-09 11:23 349次阅读

    NVIDIA黄仁勋与行业领导者畅谈AI的未来

    Mistral、Perplexity、Cursor、Reflection AI 和 Thinking Machines Lab 的首席执行官等 AI 领导者一致认为,开放模型领域取得的成果有利于整个 AI 生态系统的创新。
    的头像 发表于 04-01 09:20 738次阅读

    NVIDIA CEO黄仁勋在GTC大会上汇聚AI开放模型先锋

    Mistral、Perplexity、Cursor、Thinking Machines Lab 等公司的首席执行官与黄仁勋一起登上舞台,共同勾勒了开放前沿时代的未来。
    的头像 发表于 03-23 15:28 363次阅读

    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿模型发展

    在内的领先创新者皆是创始成员,助力塑造新一代 AI 系统。 ● 联盟成员将协作开发一款基于 NVIDIA DGX™ Cloud 训练的开放模型,并将生成的模型开源,使全球开发者和组织能够针对其行业和领域进行专
    的头像 发表于 03-17 11:14 281次阅读
    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿<b class='flag-5'>模型</b>发展

    NVIDIA Jetson模型赋能AI在边缘端落地

    开源生成式 AI 模型不再局限于数据中心,而是开始深入到现实世界的各种机器中。从 Orin 到 Thor,NVIDIA Jetson 系列正在成为运行 NVIDIA Nemotron、Cosmos
    的头像 发表于 03-16 16:27 583次阅读
    NVIDIA Jetson<b class='flag-5'>模型</b>赋能AI在边缘端落地

    月之暗面全新开源旗舰模型Kimi K2.5上线模力方舟

    模力方舟平台现已上线来自月之暗面(Moonshot AI)发布的全新开源旗舰模型Kimi K2.5。
    的头像 发表于 01-29 10:20 1184次阅读
    月之暗面全新<b class='flag-5'>开源</b><b class='flag-5'>旗舰</b><b class='flag-5'>模型</b>Kimi K2.5上线模力方舟

    阿里巴巴发布通义千问旗舰推理模型Qwen3-Max-Thinking

    今天,我们正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。
    的头像 发表于 01-27 15:47 555次阅读
    阿里巴巴<b class='flag-5'>发布</b>通义千问<b class='flag-5'>旗舰</b>推理<b class='flag-5'>模型</b>Qwen3-Max-Thinking

    DeepSeek开源Engram:让大模型拥有&quot;过目不忘&quot;的类脑记忆

    of Sparsity for Large Language Models》,并同步开源记忆模块Engram。这一机制通过可扩展查找结构,让大模型实现O(1)时间复杂度的"条件反射式"记忆检索,被业界视为破解
    的头像 发表于 01-14 16:07 449次阅读
    DeepSeek<b class='flag-5'>开源</b>Engram:让大<b class='flag-5'>模型</b>拥有&quot;过目不忘&quot;的类脑记忆

    今日看点:小米正式发布开源模型 MiMo-V2-Flash;磷酸铁锂开启涨价潮

    小米正式发布开源模型 MiMo-V2-Flash 近日小米正式发布开源模型 MiMo-V
    的头像 发表于 12-17 09:42 4465次阅读

    NVIDIA携手Mistral AI发布全新开源大语言模型系列

    全新 Mistral 3 系列涵盖从前沿级到紧凑型模型,针对 NVIDIA 平台进行了优化,助力 Mistral AI 实现云到边缘分布式智能愿景。
    的头像 发表于 12-13 09:58 1424次阅读

    商汤科技正式发布开源全新多模态模型架构NEO

    商汤科技正式发布开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1141次阅读
    商汤科技正式<b class='flag-5'>发布</b>并<b class='flag-5'>开源</b>全新多模态<b class='flag-5'>模型</b>架构NEO

    亚马逊云科技宣布推出Qwen3与DeepSeek-V3.1模型的完全托管服务

    的多种模型选项。DeepSeek-V3.1在数学、编程和Agentic任务方面展现出卓越性能。 · 与专有模型不同,开放权重模型让开发者能够深入了解模型权重,从而可以根据用户需求进行定
    的头像 发表于 09-19 10:11 1003次阅读

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放模型
    的头像 发表于 08-06 14:25 1123次阅读