0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

2023年发布的25个开源大型语言模型总结

颖脉Imgtec 2023-08-01 00:21 次阅读

大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。

今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。

本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助。

▎SAIL 7B
基于LLaMa的搜索增强
参数:7B
许可类型:GPL-3.0
发布日期:2023年5月
论文:SAIL — Search Augmented Instruction Learning


▎Guanaco
采用高效微调方法QLoRA发布的LLM模型
参数:65B
许可类型:MIT
发布日期:2023年5月
论文:QLoRA — Efficient Finetuning of Quantized LLMs


▎RMKV
与transformer的LLM性能相当的RNN模型
参数:100M–14B
许可类型:Apache 2.0
发布日期:2023年5月
论文:Scaling RNN to 1.5B and Reach Transformer LM Performance


▎MPT-7B
MosaicML的基础系列模型
参数:7B
许可类型:Apache 2.0
发布日期:2023年5月
论文:MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs


▎OpenLLaMa
在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。
参数:3,7B
许可类型:Apache 2.0
发布日期:2023年5月
论文:Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model


▎RedPajama-INCITE
基于RedPajama数据集上训练的指令调整和聊天Pythia模型。
参数:3B, 7B
许可类型:Apache 2.0
发布日期:2023年5月
论文:RedPajama-INCITE family of models including base, instruction-tuned & chat models


▎h2oGPT
H2O的微调框架和文档问答功能的聊天机器人UI
参数:12B,30B
许可类型:Apache 2.0
发布日期:2023年5月
论文:Building the World’s Best Open-Source Large Language Model:H2O.ai’s Journey


▎FastChat-T5
通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人
参数:3B
许可类型:Apache 2.0
发布日期:2023年4月
论文:FastChat-T5 — our compact and commercial-friendly chatbot!


▎GPT4All
用于训练和部署强大的定制llm的完整工具系统
参数:7–13B
许可类型:MIT
发布日期:2023年4月
论文:GPT4All:An ecosystem of open-source on-edge large language models.


▎MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
参数:13B
许可类型:BSD-3-Clause
发布日期:2023年4月
论文:MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models


▎StableLM
StableLM的LLM模型系列
参数:7B
许可类型:CC BY-NC-SA-4.0
发布日期:2023年4月
论文:Stability AI Launches the First of its StableLM Suite of Language Models


▎BloomZ
通过多任务微调实现跨语言泛化
参数:176B
许可类型:Apache 2.0
发布日期:2023年4月
论文:Cross-lingual Generalization through Multitask Finetuning


▎Dolly
Pythia 12B LLM在Databricks ML平台上训练的模型
参数:12B
许可类型:Apache 2.0
发布日期:2023年4月
论文:Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM


▎Baize Chatbot
基于LLaMa的开源聊天模型
参数:30B
许可类型:GPL-3.0 license
发布日期:2023年4月
论文:Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data


▎ColossalChat
由ColossalAI开源发布的一个完整的RLHF流程训练的模型
参数:N/A
许可类型:Apache 2.0
发布日期:2023年4月
论文:ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline


▎Lit LLaMa
来自Lightning AI的LLaMA的开源实现
参数:13B
许可类型:Apache 2.0
发布日期:2023年4月
论文:Why We’re Building Lit-LLaMA


▎Cerebras-GPT
开放的,计算效率高的,大型语言模型
参数:111M-13B
许可类型:Apache 2.0
发布日期:2023年3月
论文:Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster


▎Open Flamingo
Deepmind的Flamingo模型的开源实现
参数:9B
许可类型:MIT License
发布日期:2023年3月
论文:Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning


▎Chat GLM
使用开放式双语(中英文)双向密集预训练模型
参数:6B-130B
许可类型:Apache 2.0
发布日期:2023年3月
论文:GLM-130B:An Open Bilingual Pre-trained Model


▎DLite
通过微调Alpaca数据集上最小的GPT-2模型
参数:124M
许可类型:Apache 2.0
发布日期:2023年3月
论文:Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly


▎Alpaca 7B
描述:斯坦福大学发布的指令遵循LLaMA模型
参数:7B
许可类型:Apache 2.0
发布日期:2023年3月
论文:Alpaca — A Strong, Replicable Instruction-Following Model


▎Flan UL2
在预训练的UL2检查点上训练Flan 20B模型。
参数:20B
许可类型:MIT License
发布日期:2023年3月
论文:A New Open Source Flan 20B with UL2


▎Flan-T5
T5在各种数据集上的指令微调,提高预训练语言模型的可用性
参数:60M–11B
许可类型:Apache 2.0
发布日期:2023年2月
论文:Scaling Instruction-Finetuned Language Models


总结

最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的 FreeWilly2,它是在 Llama2 70B 上微调的结果,目前在open_llm_leaderboard上排第一。开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。

作者:Manikanth

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言
    +关注

    关注

    1

    文章

    97

    浏览量

    24051
  • 开源
    +关注

    关注

    3

    文章

    2991

    浏览量

    41725
  • 模型
    +关注

    关注

    1

    文章

    2709

    浏览量

    47716
收藏 人收藏

    评论

    相关推荐

    谷歌发布轻量级开源人工智能模型Gemma

    谷歌近日宣布推出开源人工智能(AI)模型系列Gemma,旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热潮后,谷歌首次发布重要的
    的头像 发表于 02-23 11:38 420次阅读

    谷歌大型模型终于开放源代码,迟到但重要的开源战略

    在人工智能领域,谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型,都基于谷歌在 2017 年发布的 Transformer 论文;谷歌的发布
    发表于 02-22 18:14 192次阅读
    谷歌<b class='flag-5'>大型模型</b>终于开放源代码,迟到但重要的<b class='flag-5'>开源</b>战略

    模型开源开放评测体系司南正式发布

    近日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型
    的头像 发表于 02-05 11:28 601次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布开源模型CodeLlama70B
    的头像 发表于 01-31 10:30 973次阅读

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 130次阅读
    机器人基于<b class='flag-5'>开源</b>的多模态<b class='flag-5'>语言</b>视觉大<b class='flag-5'>模型</b>

    OpenHarmony社区运营报告(202312月)

    贡献者,70 家共建单位,产生 26.9 万多个 PR,2.4 万多个 Star,6.7 万多个 Fork,59 SIG。 2、合作社区官方账号发布内容数据汇总 截至 2023
    发表于 01-10 15:44

    上海站报名启动! 2023开源产业生态大会OpenHarmony生态分论坛

    作为年内开源领域不容错过的科技盛宴,2023开源产业生态大会将于12月19日在上海盛大开幕。本次活动由上海市经济和信息化委员会、上海市科学技术协会和\"科创中国\"
    发表于 11-24 14:55

    OpenHarmony社区运营报告(20238月)

    代表15OpenHarmony技术俱乐部代表和8TSG代表出席此次会议总参会人数60+。 四、技术发展 20238月3日OpenHarmony 4.0 Beta2版本
    发表于 09-12 18:35

    腾讯发布混元大语言模型

    腾讯发布混元大语言模型 腾讯全球数字生态大会上腾讯正式发布了混元大语言模型,参数规模超千亿,预训
    的头像 发表于 09-07 10:23 855次阅读

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 959次阅读
    Meta<b class='flag-5'>发布</b>一款可以使用文本提示生成代码的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>Code Llama

    大型语言模型在关键任务和实际应用中的挑战

    大型语言模型的出现极大地推动了自然语言处理领域的进步,但同时也存在一些局限性,比如模型可能会产生看似合理但实际上是错误或虚假的内容,这一现象
    的头像 发表于 08-15 09:33 1143次阅读
    <b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>在关键任务和实际应用中的挑战

    2023发布25开源大型语言模型总结

    来源: DeepHub IMBA 大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。
    的头像 发表于 07-28 12:20 472次阅读
    <b class='flag-5'>2023</b>年<b class='flag-5'>发布</b>的<b class='flag-5'>25</b>个<b class='flag-5'>开源</b><b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>总结</b>

    大型语言模型的应用

       大型语言模型(LLM) 是一种深度学习算法,可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言
    的头像 发表于 07-05 10:27 1631次阅读

    浅析AI大型语言模型研究的发展历程

    大型语言模型研究的发展有三条技术路线:Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式, 多数主流大型语言
    发表于 06-09 12:34 3823次阅读
    浅析AI<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>研究的发展历程

    OpenHarmony社区运营报告(20234月)

    51家共建单位,累计超过5100名贡献者产生超过14万PR,超过2.1万Star,超过4.4万Fork,52SIG。 2、 合作社区官方账号
    发表于 05-22 10:30