0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

2023年发布的25个开源大型语言模型总结

Dbwd_Imgtec 来源:未知 2023-07-28 12:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:DeepHub IMBA


大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。

今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。wKgZomToNseAVRkNAAE3DVUyw_A778.jpg本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助。▎SAIL 7B
基于LLaMa的搜索增强
参数:7B
许可类型:GPL-3.0
发布日期:2023年5月
论文:SAIL — Search Augmented Instruction Learning

▎Guanaco
采用高效微调方法QLoRA发布的LLM模型
参数:65B
许可类型:MIT
发布日期:2023年5月
论文:QLoRA — Efficient Finetuning of Quantized LLMs

▎RMKV
与transformer的LLM性能相当的RNN模型
参数:100M–14B
许可类型:Apache 2.0
发布日期:2023年5月
论文:Scaling RNN to 1.5B and Reach Transformer LM Performance

▎MPT-7B
MosaicML的基础系列模型
参数:7B
许可类型:Apache 2.0
发布日期:2023年5月
论文:MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

▎OpenLLaMa
在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。
参数:3,7B
许可类型:Apache 2.0
发布日期:2023年5月
论文:Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

▎RedPajama-INCITE
基于RedPajama数据集上训练的指令调整和聊天Pythia模型。
参数:3B, 7B
许可类型:Apache 2.0
发布日期:2023年5月
论文:RedPajama-INCITE family of models including base, instruction-tuned & chat models

▎h2oGPT
H2O的微调框架和文档问答功能的聊天机器人UI
参数:12B,30B
许可类型:Apache 2.0
发布日期:2023年5月
论文:Building the World’s Best Open-Source Large Language Model:H2O.ai’s Journey

▎FastChat-T5
通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人
参数:3B
许可类型:Apache 2.0
发布日期:2023年4月
论文:FastChat-T5 — our compact and commercial-friendly chatbot!

▎GPT4All
用于训练和部署强大的定制llm的完整工具系统
参数:7–13B
许可类型:MIT
发布日期:2023年4月
论文:GPT4All:An ecosystem of open-source on-edge large language models.

▎MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
参数:13B
许可类型:BSD-3-Clause
发布日期:2023年4月
论文:MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models

▎StableLM
StableLM的LLM模型系列
参数:7B
许可类型:CC BY-NC-SA-4.0
发布日期:2023年4月
论文:Stability AI Launches the First of its StableLM Suite of Language Models

▎BloomZ
通过多任务微调实现跨语言泛化
参数:176B
许可类型:Apache 2.0
发布日期:2023年4月
论文:Cross-lingual Generalization through Multitask Finetuning

▎Dolly
Pythia 12B LLM在Databricks ML平台上训练的模型
参数:12B
许可类型:Apache 2.0
发布日期:2023年4月
论文:Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

▎Baize Chatbot
基于LLaMa的开源聊天模型
参数:30B
许可类型:GPL-3.0 license
发布日期:2023年4月
论文:Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

▎ColossalChat
由ColossalAI开源发布的一个完整的RLHF流程训练的模型
参数:N/A
许可类型:Apache 2.0
发布日期:2023年4月
论文:ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

▎Lit LLaMa
来自Lightning AI的LLaMA的开源实现
参数:13B
许可类型:Apache 2.0
发布日期:2023年4月
论文:Why We’re Building Lit-LLaMA

▎Cerebras-GPT
开放的,计算效率高的,大型语言模型
参数:111M-13B
许可类型:Apache 2.0
发布日期:2023年3月
论文:Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster

▎Open Flamingo
Deepmind的Flamingo模型的开源实现
参数:9B
许可类型:MIT License
发布日期:2023年3月
论文:Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

▎Chat GLM
使用开放式双语(中英文)双向密集预训练模型
参数:6B-130B
许可类型:Apache 2.0
发布日期:2023年3月
论文:GLM-130B:An Open Bilingual Pre-trained Model

▎DLite
通过微调Alpaca数据集上最小的GPT-2模型
参数:124M
许可类型:Apache 2.0
发布日期:2023年3月
论文:Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

▎Alpaca 7B
描述:斯坦福大学发布的指令遵循LLaMA模型
参数:7B
许可类型:Apache 2.0
发布日期:2023年3月
论文:Alpaca — A Strong, Replicable Instruction-Following Model

▎Flan UL2
在预训练的UL2检查点上训练Flan 20B模型。
参数:20B
许可类型:MIT License
发布日期:2023年3月
论文:A New Open Source Flan 20B with UL2

▎Flan-T5
T5在各种数据集上的指令微调,提高预训练语言模型的可用性
参数:60M–11B
许可类型:Apache 2.0
发布日期:2023年2月
论文:Scaling Instruction-Finetuned Language Models


总结最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的 FreeWilly2,它是在 Llama2 70B 上微调的结果,目前在open_llm_leaderboard上排第一。开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。作者:Manikanth

END

欢迎加入Imagination GPU与人工智能交流2群

wKgZomToNseABI9MAABN8aBfIqc329.jpg

入群请加小编微信:eetrend89

(添加请备注公司名和职称)

推荐阅读 对话Imagination中国区董事长:以GPU为支点加强软硬件协同,助力数字化转型 下载白皮书 | 通过Photon架构创建身临其境的图形体验

Imagination Technologies是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作 场所中使用。获取更多物联网、智能穿戴、通信汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!


原文标题:2023年发布的25个开源大型语言模型总结

文章出处:【微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • imagination
    +关注

    关注

    1

    文章

    627

    浏览量

    63552

原文标题:2023年发布的25个开源大型语言模型总结

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OPPO Pad 6定档5月25日18:00发布

    20265月19日,OPPO官方正式宣布,新一代平板电脑OPPO Pad 6将于5月25日18:00面向全球发布。从官方同步放出的产品外观图来看,该机型在整体设计语言上与上一代Pad
    的头像 发表于 05-19 11:53 489次阅读

    燧原科技L600适配腾讯混元Hy3 preview语言模型

    20264月23日,腾讯混元 Hy3 preview 语言模型发布开源,燧原 L600已同步完成对 Hy3 preview极速全面适配。
    的头像 发表于 04-28 15:13 308次阅读
    燧原科技L600适配腾讯混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    解读大型语言模型的偏见

    在一项新的研究中,研究人员发现了LLM中某种偏见的根本原因,为更准确、更可靠的AI系统铺平了道路。研究表明,大型语言模型(LLM)往往倾向于过分强调文档或对话开头和结尾的信息,而相对忽略中间部分
    的头像 发表于 04-15 14:44 818次阅读
    解读<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的偏见

    NVIDIA在CES 2026发布全新开放模型、数据和工具

    为扩展开放模型生态,NVIDIA 发布全新开放模型、数据和工具,推动各行业 AI 技术的发展。
    的头像 发表于 01-09 10:42 831次阅读

    云知声山海医疗大模型问鼎MedBench4.0三项榜首

    12月16日,中文医疗大模型权威评测平台MedBench4.0发布最新评测结果。云知声自主研发的“山海医疗大模型(UniGPT‑Med)”展现出全面领先的技术实力,一举斩获医疗智能体、医疗大
    的头像 发表于 12-29 14:35 3612次阅读
    云知声山海医疗大<b class='flag-5'>模型</b>问鼎MedBench4.0三项榜首

    重磅更新 | 先楫半导体HPM_APPS v1.10.1发布

    重磅更新 | 先楫半导体HPM_APPS v1.10.1发布
    的头像 发表于 12-26 08:33 1509次阅读
    重磅更新 | 先楫半导体HPM_APPS v1.10.1<b class='flag-5'>发布</b>

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRI
    的头像 发表于 12-13 09:50 1661次阅读

    今日看点:象帝先推出首款量产Imagination DXD GPU显卡;小米汽车累计交付突破 50 万台

    ,能够同时处理文本与图像信息,使车辆能够“看见”周围环境,并基于所感知的内容做出决策。   该新模型基于英伟达此前推出的 Cosmos-Reason 推理模型构建,后者具备在响应前对决策进行逻辑推演的能力。英伟达最初于2025
    发表于 12-02 10:24 1282次阅读

    openDACS 2025 开源EDA与芯片赛项 赛题七:基于大模型的生成式原理图设计

    , ASPDAC\'2017, DAC\'2017最佳论文提名。2018获国家自然科学基金委优青项目资助。 3. 赛题背景 随着人工智能技术的迅猛发展,特别是深度学习与自然语言处理领域的持续突破,大型预训练
    发表于 11-13 11:49

    开源鸿蒙技术大会2025丨以智能化为主旋律,擘画开源鸿蒙下一展技术蓝图

    ,与来自学术界和产业界的专家们共同回顾开源鸿蒙五来走过的非凡历程,发布开源鸿蒙6.0版本,并展望面向未来的智能终端操作系统关键技术创新方向,呼吁与会专家以智能化发展为主旋律,共同擘
    的头像 发表于 11-10 18:13 1764次阅读
    <b class='flag-5'>开源</b>鸿蒙技术大会2025丨以智能化为主旋律,擘画<b class='flag-5'>开源</b>鸿蒙下一<b class='flag-5'>个</b>五<b class='flag-5'>年</b><b class='flag-5'>发</b>展技术蓝图

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    为助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1515次阅读

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一
    的头像 发表于 08-06 14:25 1205次阅读

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 719次阅读
    利用自压缩实现<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>高效缩减

    【VisionFive 2单板计算机试用体验】3、开源语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, Llama
    发表于 07-19 15:45

    面壁小钢炮模型MiniCPM4.0发布,端侧智能更进一步

      电子发烧友网报道(文/李弯弯)20256月6日,面壁智能CEO李大海在北京智源大会上发布有史以来最具想象力的面壁小钢炮模型MiniCPM4.0,代号“前进四”,开源
    的头像 发表于 06-08 08:18 7584次阅读
    面壁小钢炮<b class='flag-5'>模型</b>MiniCPM4.0<b class='flag-5'>发布</b>,端侧智能更进一步