0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源大模型到底开源什么?源码在哪呢?

OSC开源社区 来源:睡前机器学习 2023-04-11 09:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT出来以后很多人都在说开源,认为只要OpenAI大发善心或者哪个高超的黑客黑进服务器,把ChatGPT的源码发出来放到网上,那么到不了第二天天亮,全世界就会人手一个ChatGPT。

这是一种常见的误解。

开源字面意思是公开源代码,过去我们通常是指公开某款软件项目的源代码。知名的譬如说Linux操作系统,准确来说是操作系统内核,我们拿到Linux的源码,只要搭建好相应的编译环境,就能在本地编译一套一模一样的操作系统内核。

当然,实际会复杂一点,同一套源码用不同方法编译,运行效率、资源占用等都可能不同。这里姑且不再细抠,总之,过去软件开源给我们的印象就是,甭管什么阆苑仙葩,只要一开源就能人手一份,而且很快还会有各种换皮魔改,同人逼死官方。往好了说,这叫开源带来澎湃力量。

但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。先别着急着高兴,对于99%的人来说,GPT-4的源码毫无意义,对于剩下的1%里的99%,可能也就蹭一些研究论文。只有最后剩下的1%里的1%才会有真正帮助,不过,也只是有帮助,但不算很大。

为什么?原因不复杂,因为大语言模型的所谓开源,实际上是有三个对象。源码只是其中之一。我不是针对谁,在座各位即使拿到了源码,剩下能做的也就只有点赞鼓掌。

人工智能三要素,算法、算力和数据。也有人管最后叫算据,不太确定这俩词是不是互通。总之,到了力大飞砖的大语言模型时代,这三要素就成了算法、高算力和大数据。只有同时满足这三大要素,你才有可能最终得到一款和ChatGPT类似效果拔群的模型。

那么,源码在哪呢?在算法。算法的核心部分主要包括有模型结构和训练方法,这两部分都有对应的源码。哪天OpenAI公开源码,我们应该就能看到的也就是模型结构和训练方法两部分。

当然,这只是核心部分。一款人工智能产品,尤其是大型人工智能产品,还会有许多工程问题需要解决,除了核心还需要其它配套部件。别看到“配套部件”就觉得没什么。之前同样是OpenAI,配套部件大概占九成。所以,别管它Open不Open吧,我们能看到的都是冰山一角。

拿到源码之后,真正的挑战才刚开始。接下来才是这个世界绝大多数人、研究机构和企业注定无法迈过的门槛:高算力和大数据。

高算力已经说了很多了,门槛很高,但从全世界范围来说,总归有一些企业挤挤还是有的。不过,大数据就未必了。

数据非常重要。无论是人工智能时代,还是人工智障时代,扩大数据的规模、提高数据的质量,通常都能显著提高模型的最终表现。以前我们经常自嘲,说人工智能就是投入多少人工就产出多少智能,人工做什么呢?就是标数据。

千万不要小看了标数据,这玩意费人、费钱,关键还费时间。搞一个大模型已经十分不易,搞一个能喂饱大模型的数据集更为困难。OpenAI这种光启动资金就10亿刀的富二代企业,标数据照样也得想办法省钱,后来还出了一条新闻。

这里插个的阴谋论,ChatGPT的免费用,换个角度看没准就成了我们给OpenAI免费标数据。有没有依据?有。OpenAI官方明着说了,你和ChatGPT的交互数据可能用于模型训练,要知道那可是一亿多的用户,那得生产多少高质量的人工标注数据。技术领先优势可以追赶,数据领先优势则就未必了。

好了,假设你七星聚顶,三大要素都凑齐了,接下来是不是就能炼出ChatGPT了呢?前面我们说过,“你才有可能最终得到一款和ChatGPT类似效果拔群的模型”。为什么是有可能?因为模型训练和编译源码不太一样,里面还包含一些难以言说的玄学因素。我一直对Bard的表现耿耿于怀,百思不得其解,我怀疑谷歌可能就是栽倒在玄学因素上面。

那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。当然,这还是对于大企业、大机构来说,运行大语言模型虽然消耗的算力远不如训练,但也不是单卡就能负担的。

何况,行话说的“单卡运行”,通常是指60G显存往上。哥们那些打游戏的所谓高端显卡,在这还没够上起步价。

最后多说两句开源。开源很重要,人工智能能有今天的进步,开源功不可没。人工智能的研究成果大概有几种,首先就是论文。学术论文是要钱的,但是在人工智能领域,很多作者都免费公开了论文。当然,有些是论文,有些是名叫论文的文宣资料,通常倒数第三或者第四部分会放一些表格,表扬一下这次搞的模型在什么什么任务上面效果拔群,洋气一点,叫SOTA。

然后是源码。源码不是必选项,有些研究者只发论文不发源码,有一种原因是舍不得,觉得辛辛苦苦憋出来的成果不愿意简简单单就交给别人,当然也有可能觉得写得太烂丢不起人,或者在论文里吹太过了,担心别人复效不了质疑。

还有就是模型。前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司大机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险”等等。

谷歌在21年就搞出了大语言模型LaMDA,说技术过于先进不便展示,害得我对着论文流了好多口水。现在出来个Bard,还不如不展示。

这里为咱们的中文开源大语言模型打个Call吧,能讲中文还开源的大语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。

最后就是开源数据集了,这项工作很重要,但也很容易被圈外忽视。现在中文大语言模型缺的东西很多,抱怨的也很多,还有一票人天天平替这个平替那个,实在不知道怎么想。不过,讲屁话没有用,已经有一些开源项目开始做起来,这都是星星之火。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux操作系统

    关注

    0

    文章

    54

    浏览量

    11823
  • OpenAI
    +关注

    关注

    9

    文章

    1249

    浏览量

    10278
  • ChatGPT
    +关注

    关注

    31

    文章

    1600

    浏览量

    10392

原文标题:开源大模型到底开源什么?

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    地平线正式开源HoloBrain VLA基座模型

    2月13日,地平线正式宣布其HoloBrain-0基座模型及框架全面开源。本次开源不仅包括HoloBrain-0核心算法,地平线同步开放完整基础设施RoboOrchard。作为地平线机器人实验室
    的头像 发表于 02-26 10:05 465次阅读
    地平线正式<b class='flag-5'>开源</b>HoloBrain VLA基座<b class='flag-5'>模型</b>

    华为昇腾深度适配智谱AI全新开源模型GLM-5

    2026年2月12日,智谱AI发布Agentic Engineering时代最好的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA表现
    的头像 发表于 02-25 14:41 1330次阅读
    华为昇腾深度适配智谱AI全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>GLM-5

    “明牌”对局,自变量开源模型超越pi0

    “明牌”对局,自变量开源模型超越pi0
    的头像 发表于 01-10 12:00 5750次阅读
    “明牌”对局,自变量<b class='flag-5'>开源</b><b class='flag-5'>模型</b>超越pi0

    C-小智开源版,可二次开发(WIN32)#小智AI #开源 #二次开发

    开源
    不太正经的攻城狮
    发布于 :2026年01月04日 19:31:14

    0.7元/百万token碾压竞品! 小米新开源模型,卷出AI普惠关键密码

    的 Qwen-3均为当前国产大模型中的代表性产品。在与DeepSeek V3.2、千问Qwen-3对比当中,小米开源模型到底有哪些优势和应用价值?本文进行详细
    的头像 发表于 12-21 07:52 1.1w次阅读
    0.7元/百万token碾压竞品! 小米新<b class='flag-5'>开源</b>大<b class='flag-5'>模型</b>,卷出AI普惠关键密码

    进迭时空 debug upstream | 取之于开源,贡献于开源

    。Debug相关软件项目概览RISC-V调试所涉及的核心开源软件主要包括GDB和OpenOCD。GDB(GNUDebugger)是GNU项目下的功能强大的源码级调
    的头像 发表于 11-17 09:33 5686次阅读
    进迭时空 debug upstream | 取之于<b class='flag-5'>开源</b>,贡献于<b class='flag-5'>开源</b>

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 1013次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    开源鸿蒙MNN AI应用开发与MNN移植经验

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用MNN开源框架开发AI应用以及基于MNN源码编译与Har包封装的方法。
    的头像 发表于 09-04 11:31 4967次阅读
    <b class='flag-5'>开源</b>鸿蒙MNN AI应用开发与MNN移植经验

    开源主板全系列横评!上官网查看更多参数!

    开源
    广州灵眸科技有限公司
    发布于 :2025年08月29日 11:50:04

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, Llama
    发表于 07-19 15:45

    瑞金医院携手华为开源RuiPath病理模型

    近日,由上海交通大学医学院附属瑞金医院(以下简称“瑞金医院”)主办、华为技术有限公司协办的“瑞金医院RuiPath病理模型开源及成果发布会”在上海举行。瑞金医院联合华为开源RuiPath病理
    的头像 发表于 07-02 14:57 1086次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。 此举是华为践行昇腾生态战
    的头像 发表于 06-30 11:19 1436次阅读

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    似乎国内外AI竞争日趋白热化,就在阿里巴巴发布Qwen3(通义千问3)之后,引发业界广泛关注;很多大厂在跟进,大模型不断上新: 阿里巴巴开源新一代通义千问模型Qwen3 4月29日凌晨4点,阿里巴巴
    的头像 发表于 04-30 16:08 1494次阅读

    请问下,openharmony支持哪一款龙芯的开发板?有没有开源的龙芯的openharmony源码

    想买个2k0300的开发板学习龙芯和openharmony,愣是没有看到提供openharmony源码的,也没与看到开源的代码。gitee上,openharmony的龙芯sig仓库也是关闭的,有没有人知道现在是什么情况?
    发表于 04-26 13:06