0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MiniGPT-4,开源了!

CodeSheep 来源:CodeSheep 2023-04-24 11:34 次阅读

大家好,我是程序羊。

上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息

当时的分享就提到了GPT-4的一个重要特性,那就是多模态能力。

比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。

007e6b54-df25-11ed-bfe3-dac502259ad0.gif

GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。

再比如给GPT-4一张长相奇怪的充电器图片,问为什么这很可笑?

00994992-df25-11ed-bfe3-dac502259ad0.png

GPT-4回答道,VGA 线充 iPhone

用户甚至还可以直接画一个网站草图拍照丢给GPT-4,它就可以立马帮助生成代码。

00c3b556-df25-11ed-bfe3-dac502259ad0.gif

01369ab2-df25-11ed-bfe3-dac502259ad0.gif

但是时间过去了这么久,GPT-4像这样的识图功能也迟迟没有开放。

就在大家都在等待这个功能开放的时候,一个名为MiniGPT-4的开源项目悄悄做了这件事情。

01593b58-df25-11ed-bfe3-dac502259ad0.png

没错,就是为了增强视觉语言理解。

MiniGPT-4背后团队来自KAUST(沙特阿卜杜拉国王科技大学),项目是几位博士开发的。

01737b8a-df25-11ed-bfe3-dac502259ad0.png

项目除了是开源的之外,而且还提供了网页版的demo,用户可以直接进去体验。

0191295a-df25-11ed-bfe3-dac502259ad0.png

在线体验:https://minigpt-4.github.io

GitHub仓库:https://github.com/Vision-CAIR/MiniGPT-4

论文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

MiniGPT-4也是基于一些开源大模型来训练得到的。 团队把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

训练分为两个阶段。

传统预训练阶段,在4张A100上使用500万图文对,10个小时内就可以完成,此时训练出来的Vicuna已能够理解图像,但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡A100只需要7分钟。

01ac601c-df25-11ed-bfe3-dac502259ad0.png

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存,这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。

这里也给大家看几个例子。

比如丢一张食物的照片进去来获得菜谱。

01c5f180-df25-11ed-bfe3-dac502259ad0.gif

或者给出一张商品的照片来让其帮忙写一篇文案。

024aa880-df25-11ed-bfe3-dac502259ad0.gif

当然也可以像之前GPT-4发布会上演示的那样,画出一个网页,让其帮忙生成代码。

028fe8aa-df25-11ed-bfe3-dac502259ad0.gif

可以说,GPT-4发布会上演示过的功能,MiniGPT-4基本也都有。

这一点可以说非常amazing了!

可能由于目前使用的人比较多,在MiniGPT-4网页demo上试用时会遇到排队的情况,需要在队列中等待。

02cb7104-df25-11ed-bfe3-dac502259ad0.png

但是用户也可以自行本地部署服务,过程并不复杂。

首先是下载项目&准备环境:

gitclonehttps://github.com/Vision-CAIR/MiniGPT-4.git cdMiniGPT-4 condaenvcreate-fenvironment.yml condaactivateminigpt4

然后下载预训练模型:

02dc6c02-df25-11ed-bfe3-dac502259ad0.png

最后在本地启动Demo:

pythondemo.py--cfg-patheval_configs/minigpt4_eval.yaml

通过这个项目我们也再一次看出大模型在视觉领域的可行性,未来在图像、音频视频等方面的应用前景应该也是非常不错的,我们可以期待一下。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3019

    浏览量

    41757
  • 模型
    +关注

    关注

    1

    文章

    2775

    浏览量

    47867
  • GPT
    GPT
    +关注

    关注

    0

    文章

    326

    浏览量

    14972

原文标题:MiniGPT-4,开源了!

文章出处:【微信号:CodeSheep,微信公众号:CodeSheep】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    坏MP3MP4闪存改U盘教程。#开源集结号

    U盘mp4DIY开源
    jf_24750660
    发布于 :2022年11月06日 13:22:59

    开源硬件板块正式开版,回帖有奖!!!

    @ 开源杂志《openbook》入驻论坛!期待更多的创客们加入我们!回帖奖励2积分,“美人”限一次!{:4_103:}
    发表于 10-07 21:52

    小车底盘硬件开源自主导航小车MickX4

    模型,小车的名字为 MickX4,教程一共分为4篇:开源自主导航小车MickX4(一)— 小车底盘硬件开源自主导航小车MickX
    发表于 08-06 07:08

    crazepony开源四轴开源无人机

    实体无人机买来了,提供官方的网址。crazepony开源四轴开源无人机的项目的网址为:开源四轴飞行器》PDF版本下载地址里面有很详细的介绍。在这里就不多说了。首先粗略的看了一下网站的
    发表于 09-13 07:51

    开源汇总】精选开源硬件项目汇总

    与期待,我在几周前开始第一版基础上的改进版的设计与验证工作,现在终于可以把成果公开了。开源项目4:全志v3S开发板(原理图+PCB文件)作者:lengyuefeng芯片:全志V3S项目简介:我准备在我
    发表于 04-29 18:45

    开源协议、开源贡献协议与OpenHarmony

    激情,因此世界上现在有60 多种被开源促进组织(Open Source Initiative)认可的开源许可协议来保证开源工作者们的权益。开源协议规定
    发表于 08-30 15:33

    开源4G远程GPS定位器

    概述: ​ SB-FL01 是一款基于《ShineBlink 低代码核心模组》开发的《4G远程GPS定位器》设备,可实现GPS定位信息获取、UTC时间获取功能。该设备的配置方式极其简单,用户无需在
    发表于 05-30 11:54

    开源4G远程GPS定位器/温湿度采集器

    大量的教程以供学习。 (2)关于样机的制作(帮忙) 请联系本开源设计的作者 (3)需要特殊定制其他功能或者批量 请联系本开源设计的作者 关于作者: gitee 站内私信(推荐) 微信
    发表于 05-31 12:23

    开源】智慧农业盒子(4G_GPS)

    概述: ​ SB-FSB01 是一款基于《ShineBlink 低代码核心模组》开发的《4G智慧农业盒子》设备,可以采集智慧农业场景中的各种重要传感数据(土壤温度含水量PH电导率氮磷钾、环境二氧化碳
    发表于 06-01 09:41

    开源】智慧养殖盒子(4G_GPS)

    ),所以即使不擅长编程不懂嵌入式开发,也可以使用极其简单的Lua编程来实现功能,另外 shineblink.com 也提供大量的教程以供学习。 (2)关于样机的制作(帮忙) 请联系本开源设计的作者 (3
    发表于 06-02 09:32

    开源】智慧气象盒子(4G_GPS)

    大量的教程以供学习。 (2)关于样机的制作(帮忙) 请联系本开源设计的作者 (3)需要特殊定制其他功能或者批量 请联系本开源设计的作者 关于作者: gitee 站内私信(推荐) 如果喜欢本项
    发表于 06-05 09:36

    开源4G_Lora远程雨量监测器

    概述: ​ SB-FSS04 是一款基于C2M低代码核心模组开发的《4G_Lora远程雨量监测器》设备,可实现4G或Lora远程获取雨量值的功能。该设备的配置方式极其简单,用户无需在电脑端安装任何
    发表于 06-09 10:13

    开源4G_Lora远程风速监测器

    概述: ​ SB-FSS05 是一款基于C2M低代码核心模组开发的《4G_Lora远程风速监测器》设备,可实现4G或Lora远程获取风速值的功能。该设备的配置方式极其简单,用户无需在电脑端安装任何
    发表于 06-12 09:32

    开源4G_Lora远程光照监测器

    概述: ​ SB-FSS07 是一款基于C2M低代码核心模组开发的《4G_Lora远程光照监测器》设备,可实现4G或Lora远程获取光照强度值的功能。该设备的配置方式极其简单,用户无需在电脑端安装
    发表于 06-14 10:01

    开源4G_Lora远程氨气监测器

    概述: ​ SB-FSS11 是一款基于C2M低代码核心模组开发的《4G_Lora远程氨气监测器》设备,可实现4G或Lora远程获取氨气浓度值的功能。该设备的配置方式极其简单,用户无需在电脑端安装
    发表于 06-26 09:36