0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

OpenCV学堂 来源:新智元 2024-01-30 15:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。

Mixtral 8x7B开源模型的诞生,正如Llama一样,为开源社区了带来曙光。

前段时间,Mixtral刚刚发布了8x7B模型的论文。在基准测试结果中,其性能达到或超过 Llama 2-70B和GPT-3.5。

甚至,Mixtral在数学、代码生成和多语言理解任务方面表现亮眼。

最近,一个开源研究小组Nous Research推出了新一代旗舰大模型Nous-Hermes 2 Mixtral 8x7B。

这是首个通过RLHF训练的模型,并在主流基准测试中超越Mixtral Instruct,成为最佳开源模型。

0fd71520-b90d-11ee-8b88-92fbcf53809c.png

此外,Nous Research团队发布的SFT和SFT+DPO模型,以及DPO适配器将为用户提供更多选择。

0fdab644-b90d-11ee-8b88-92fbcf53809c.png

在所有的基准测试中,Nous-Hermes 2 Mixtral 8x7B模型也略不逊色。

0ff211fe-b90d-11ee-8b88-92fbcf53809c.png

目前,这些模型同样在Hugging Face上开源上线。

最佳开源模型诞生

据介绍,最新模型是在Mixtral 8x7B MoeLLM微调训练而来。

具体来说,Nous-Hermes 2 Mixtral 8x7B是在1,000,000个条目进行了训练(主要是GPT-4生成的数据),以及整个AI领域开放数据集等其他高质量数据集。

103394c6-b90d-11ee-8b88-92fbcf53809c.png

研究人员同时还发布了SFT Only版本,以及SFT+DPO版本。

103f2624-b90d-11ee-8b88-92fbcf53809c.png

104a330c-b90d-11ee-8b88-92fbcf53809c.png

模型演示

那么,Nous Research团队最新的模型能力有多强?

编写可视化数据代码完全是小菜一碟。

105ff3f4-b90d-11ee-8b88-92fbcf53809c.png

它还能写赛博朋克的迷幻诗。

106c002c-b90d-11ee-8b88-92fbcf53809c.png

可以执行反向翻译,从输入文本中创建提示信息。

1087855e-b90d-11ee-8b88-92fbcf53809c.png

基准测试

与Mixtral基础模型相比,Mixtral 8x7B上的Nous-Hermes 2在以下基准测试中取得了全面提升,也是MistralAI首次击败旗舰型号Mixtral Finetune。

在GPT4All中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了75.7分,位列榜单第三。

109343a8-b90d-11ee-8b88-92fbcf53809c.png

在AGIEval的排行中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了46.05的成绩。

109b9af8-b90d-11ee-8b88-92fbcf53809c.png

此外,在BigBench Reasoning Test中,Nous-Hermes 2 Mixtral 8x7B(SFT+DPO)霸榜第一。

10baf0d8-b90d-11ee-8b88-92fbcf53809c.png

背后团队

成立于2023年,Nous Research是一个在大模型领域发布开源研究而闻名的私人应用研究小组。

去年12月,这个研究团队成员曾发布了一款轻量的视觉语言模型——Nous Hermes 2 Vision。

这个模型以希腊神使赫尔墨斯的名字命名。它通过用户上传的图像数据,通过自然语言提供详细的答案。

10c8ec06-b90d-11ee-8b88-92fbcf53809c.png

就在前几天,Nous Research宣布了一轮520万美元的种子融资,涉及了多位天使投资人。

到目前为止,Nous Research已经发布了40多个开源模型,包括Hermes、YaRN、Capybara、Puffin和Obsidian系等系列。

10d4170c-b90d-11ee-8b88-92fbcf53809c.png

Mixtral模型,会将成为开源版GPT-4

继2023年年初Llama发布之后,一系列羊驼家族瞬间爆发。年底,Mixtral的开源MoE发布,更是为开源年做了一个完美的收尾。

有网友表示,Mixtral或将有实力将于今年接管GPT-4。

在Chatbot Arena排行榜上,Mixtral成为(继GPT-4、Claude和Mistral Medium之后)唯一能打的开源模型,也是仅有7B参数的最小模型,甚至比谷歌的Gemini Pro还要好!

10e8933a-b90d-11ee-8b88-92fbcf53809c.png

而且它是开源的!任何人可以获取该模型,并将其部署到自己的设备,而且可以对其进行微调,可以随心所欲地使用它。

1105b7c6-b90d-11ee-8b88-92fbcf53809c.png

现在,在Mixtral-7B上进行微调、部署的模型案例,也是非常的多。

比如,有网友用树莓派在本地跑起了Phi-2、Mistral和LLaVA等模型。

还有人出了一款APP,名为Offline Chat:Private AI,能够在iPhone上离线跑Mistral 7B模型。

这样一来,模型生成的内容,可以保障安全和隐私。

11342f84-b90d-11ee-8b88-92fbcf53809c.png

还有人用直接偏好微调了Mistral-7B模型。

114023a2-b90d-11ee-8b88-92fbcf53809c.png

具体来说,研究人员将使用一种类似RLHF的技术:直接偏好优化(DPO)对OpenHermes-2.5进行微调,从而创建NeuralHermes-2.5。

为此,他们还引入了一个偏好数据集,描述DPO算法工作原理,并将其应用到模型中。我们将看到它显著提高了OpenLLM排行榜上基本模型的性能。

有网友进行的海底捞针实验中, Mistral-7B-Instruct-v0.2在80000 token情况下,召回率下降。

11ddb04a-b90d-11ee-8b88-92fbcf53809c.png

相信未来,Mixtral模型会向羊驼家族一样,迎来大爆发。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4422

    浏览量

    46579
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52338
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26298
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5296

原文标题:最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    宁畅AI服务器全栈适配DeepSeek V4模型

    4月24日,国产大模型领域迎来重磅发布——DeepSeekV4系列正式亮相。这款新一代旗舰大模型,以双版本MoE架构、百万Token超长上下
    的头像 发表于 04-29 11:11 601次阅读

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的
    的头像 发表于 03-14 16:54 2083次阅读
    大晓机器人<b class='flag-5'>开源</b>实时生成世界<b class='flag-5'>模型</b>Kairos 3.0-<b class='flag-5'>4</b>B

    华为昇腾深度适配智谱AI全新开源模型GLM-5

    2026年2月12日,智谱AI发布Agentic Engineering时代最好的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA
    的头像 发表于 02-25 14:41 1553次阅读
    华为昇腾深度适配智谱AI全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>GLM-5

    商汤科技正式开源多模态自主推理模型SenseNova-MARS

    今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.06 分)、
    的头像 发表于 01-30 10:13 879次阅读
    商汤科技正式<b class='flag-5'>开源</b>多模态自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    商汤开源SenseNova-MARS:突破多模态搜索推理天花板

    “执行能力”。 在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的 SOTA 成绩,还
    的头像 发表于 01-29 23:53 307次阅读
    商汤<b class='flag-5'>开源</b>SenseNova-MARS:突破多模态搜索推理天花板

    “明牌”对局,自变量开源模型超越pi0

    “明牌”对局,自变量开源模型超越pi0
    的头像 发表于 01-10 12:00 5837次阅读
    “明牌”对局,自变量<b class='flag-5'>开源</b><b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    C-小智开源版,可二次开发(WIN32)#小智AI #开源 #二次开发

    开源
    不太正经的攻城狮
    发布于 :2026年01月04日 19:31:14

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型: 加速多模态研发 ,闭源模型逐步逆袭开源 多模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域
    的头像 发表于 09-09 09:30 1159次阅读

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企
    的头像 发表于 08-14 11:34 1655次阅读

    讯飞星辰MaaS平台率先上线OpenAI最新开源模型

    8月6日凌晨,OpenAI 时隔六年再次回归开源,发布两款全新的大语言模型gpt-oss-120b和gpt-oss-20b,性能与o4-m
    的头像 发表于 08-13 16:43 2057次阅读

    阿里通义千问发布小尺寸模型Qwen3-4B,手机也能跑

    、HuggingFace正式开源。在非推理领域,Qwen3-4B-Instruct-2507全面超越闭源的GPT4.1-Nano。在推理领域,Qwen3-
    的头像 发表于 08-12 17:15 7142次阅读
    阿里通义千问发布小尺寸<b class='flag-5'>模型</b>Qwen3-<b class='flag-5'>4</b>B,手机也能跑

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt
    的头像 发表于 08-06 14:25 1205次阅读

    2025开放原子开源生态大会前瞻

    2025年,开源模型迎来历史性突破——首次实现了模型能力的赶超,甚至赶超了领先闭源大模型。据麦肯
    的头像 发表于 07-21 17:47 1218次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    的推理能力和泛化能力。 在多项基准测试中,DeepSeek-V3的表现优于GPT-4等主流闭源模型,在长文本处理、 代码生成和数学推理等领域展现了顶尖性能。DeepSeek-V3 的生成速度也得到了显著
    发表于 07-17 11:59