0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一套开源的大型语言模型(LLM)—— StableLM

OSC开源社区 来源:OSC开源社区 2023-04-24 10:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Stability AI 是 Stable Diffusion 图像生成工具背后的公司,如今他们不再局限于开发图像 / 视频生成方面的 AI,于今天正式发布了一套开源的大型语言模型(LLM)—— StableLM,首次涉足目前由 OpenAI、Meta 和 Google 等科技公司主导的语言模型领域。

StableLM 跟 ChatGPT、Bard 这些一样,被设计用来生成文本和代码。它是通过使用开源数据集 the Pile 训练而来的,这个数据集包含的数据来源就有维基百科、Stack Exchange 和 PubMed。不过,Stability AI 在 the Pile 的基础上进行了扩展,所使用的数据集大小是标准 the Pile 的 3 倍。

Stability AI 现在已经将这个 StableLM 模型发布到了 GitHub 上,开发者可以使用或经过调整后再使用。StableLM 模型还处于 Alpha 阶段,它的参数也比较少,只有 30 亿和 70 亿个参数,之后他们还会推出有 150 亿到 650 亿参数的模型。

e9cfbea8-df9c-11ed-bfe3-dac502259ad0.png

对于 AI 可能会产生的风险,Stability AI 也给出了提醒:

对于任何没有额外微调和强化学习的预训练大型语言模型来说,用户得到的回应质量可能参差不齐,并且可能包括冒犯性的语言和观点。这有望随着规模、更好的数据、社区反馈和优化而得到改善。

e9ff4f24-df9c-11ed-bfe3-dac502259ad0.jpg

除了将代码托管在 GitHub 上,Stability AI 还在 Hugging Face 上发布了一个演示版本,经过测试 StableLM 会说中文,但只会一点点(回复内容对应不上,语句也不通顺)。

ea1836ba-df9c-11ed-bfe3-dac502259ad0.png

在 Stable Diffusion 发布后,Stability AI 遭到了很多艺术家的投诉和起诉,指控它通过使用网络抓取的受版权保护的图像开发 AI 图像生成工具,侵犯了艺术家们的权利。在之前的纠纷还没解决的情况下,如今推出 StableLM 不知道是否还会引发更多的诉讼。

Stability AI 在去年 10 月融资了 1 亿美元,公司估值也超过了 10 亿美元。但 AI 是一个投入非常高,可能短期也很难产生收益的领域,也不知道这 1 亿美金现在还剩多少,为了在这个领域持续发展,Stability AI 会不会继续融资,亦或是投入某个大型公司的怀抱呢?

项目地址:https://github.com/Stability-AI/StableLM

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26047
  • GitHub
    +关注

    关注

    3

    文章

    484

    浏览量

    18425
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1257

原文标题:AI作画鼻祖Stability AI推出大型语言模型,会一点点中文

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”
    的头像 发表于 09-26 13:37 1606次阅读

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    加载 → 图片预处理 → 用户交互 → 推理输出”的核心流程,支持图文体的多模态对话,适配多轮问答、视觉问答等典型场景。 具体运行机制可拆解为以下步骤:1. 模型初始化首先加载大语言模型
    发表于 09-05 17:25

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3091次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>LLM</b>原理

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言
    的头像 发表于 08-12 15:19 3822次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1760次阅读

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型LLM)的开发已经成为个热门话题。这些模型通过学习大量的文本
    的头像 发表于 04-30 18:34 1066次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 <b class='flag-5'>LLM</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型LLM)的推理能力成了最热门的话题之,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学
    的头像 发表于 04-03 12:09 1249次阅读
    详解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的现状

    新品 | Module LLM Kit,离线大语言模型推理模块套装

    推理与数据交互需求。ModuleLLM是款集成化的离线大语言模型(LLM)推理模块,专为需要高效、智能交互的终端设备设计。Module13.2LLMMate模块
    的头像 发表于 03-28 18:49 895次阅读
    新品 | Module <b class='flag-5'>LLM</b> Kit,离线大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理模块套装

    无法在OVMS上运行来自Meta的大型语言模型LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时
    发表于 03-05 08:07

    语言模型在军事应用中的安全性考量

    大型语言模型LLM)(如 ChatGPT、Claude 和 Meta AI)的出现是迄今为止人工智能领域最重大的进步。这项新技术也带来了新风险。众所周知的例子包括偏见、幻觉、知识产权
    的头像 发表于 02-09 10:30 762次阅读

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是款AI大语言模型推理开发平台,专为边缘计算和智能
    的头像 发表于 01-17 18:48 1205次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理开发平台

    如何使用Java语言快速开发一套智慧工地系统(源码)

    使用Java语言快速开发一套智慧工地系统,可以遵循以下步骤和策略: 1、确定系统架构 微服务架构:采用Spring Cloud构建微服务,每个服务负责个特定的功能模块,如安全监控、人员管理等,提高
    的头像 发表于 01-09 17:39 1017次阅读

    小白学大模型:构建LLM的关键步骤

    随着大规模语言模型LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否从零开始训练
    的头像 发表于 01-09 12:12 1556次阅读
    小白学大<b class='flag-5'>模型</b>:构建<b class='flag-5'>LLM</b>的关键步骤

    在NVIDIA TensorRT-LLM中启用ReDrafter的些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源种新型推测解码技术
    的头像 发表于 12-25 17:31 1242次阅读
    在NVIDIA TensorRT-<b class='flag-5'>LLM</b>中启用ReDrafter的<b class='flag-5'>一</b>些变化

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    (VLM)是种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示,并通过复杂的推理过程,实现对这些信息的准确理解和应用。NaVILA正是基于这原理,通过将大型
    的头像 发表于 12-13 10:51 960次阅读