0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

与ChatGPT性能最相匹配的开源模型

深度学习自然语言处理 来源:深度学习自然语言处理 2023-04-06 10:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言

最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B,通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估,发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上,同时在 90% 情况下都优于 LLaMA 和 Alpaca 等其他模型。训练 Vicuna-13B 的费用约为 300 美元。训练和代码[1]以及在线演示[2]已公开。

Vicuna到底怎么样?

Vicuna在官网中通过和Alpaca、LLaMA、ChatGPT和Bard对比,然后通过GPT4当裁判来打出分数,具体如下。

13c714ec-d401-11ed-bfe3-dac502259ad0.png

问题

13de1fde-d401-11ed-bfe3-dac502259ad0.png

Alpaca-13b vs Vicuna

140b2c9a-d401-11ed-bfe3-dac502259ad0.png

LLaMA-13b vs Vicuna

1430ff2e-d401-11ed-bfe3-dac502259ad0.png

ChatGPT vs Vicuna

1454ff3c-d401-11ed-bfe3-dac502259ad0.png

Bard vs Vicuna

可以看出,Vicuna的回答还是非常棒的,让GPT4来打分,Vicuna和ChatGPT是十分接近的,远远高于Alpaca和LLaMA。

如果大家想试试别的问题,可以自己去尝试[3]哈。

1476f48e-d401-11ed-bfe3-dac502259ad0.png

可换不同类型的不同问题

然而,官方认为评估聊天机器人绝非易事,听过GPT4进行评估是一件十分不严格的事情,但是目前还是无法解决评估的问题,需要后续学者进行进一步探索。

148f1b54-d401-11ed-bfe3-dac502259ad0.png

图1 GPT-4 评估

在线demo

14a82ec8-d401-11ed-bfe3-dac502259ad0.png

概述

14cef7ec-d401-11ed-bfe3-dac502259ad0.png

图2 工作流

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如表 1 所示。

14f36212-d401-11ed-bfe3-dac502259ad0.png

表1 一些模型的对比

训练

Vicuna 是通过使用从 ShareGPT.com 使用公共 API 收集的大约 7万 用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量,将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。

训练方法建立在斯坦福alpaca的基础上,并进行了以下改进。

内存优化:为了使 Vicuna 能够理解长上下文,将最大上下文长度从alpaca 中的 512 扩展到 2048。还通过gradient checkpointingflash attentio来解决内存压力。

多轮对话调整训练损失考虑多轮对话,并仅根据聊天机器人的输出进行微调。

通过 Spot 实例降低成本:使用 SkyPilot 托管点来降低成本。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

150d9588-d401-11ed-bfe3-dac502259ad0.png

图3 通过GPT4来评估打分

153299aa-d401-11ed-bfe3-dac502259ad0.png

通过GPT4评估得出的总分






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31442

    浏览量

    223652
  • CMU
    CMU
    +关注

    关注

    0

    文章

    21

    浏览量

    15628
  • GPT
    GPT
    +关注

    关注

    0

    文章

    372

    浏览量

    16965
  • ChatGPT
    +关注

    关注

    31

    文章

    1600

    浏览量

    10393

原文标题:Vicuna:与ChatGPT 性能最相匹配的开源模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元

    2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合256K超长上下文窗口,标志着腾讯在AI大
    的头像 发表于 04-24 09:07 574次阅读

    天数智芯Day 0适配MiniMax最新开源M2.7大模型

      4月12 日,MiniMax 最新开源 M2.7 大模型正式发布,凭借自主迭代能力与优异的工程、办公性能引发行业关注。天数智芯与FlagOS 统一开源技术栈合作实现Day0落地,在
    的头像 发表于 04-15 15:42 775次阅读

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的开源具身原生世界
    的头像 发表于 03-14 16:54 2002次阅读
    大晓机器人<b class='flag-5'>开源</b>实时生成世界<b class='flag-5'>模型</b>Kairos 3.0-4B

    华为昇腾深度适配智谱AI全新开源模型GLM-5

    2026年2月12日,智谱AI发布Agentic Engineering时代最好的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA表现
    的头像 发表于 02-25 14:41 1342次阅读
    华为昇腾深度适配智谱AI全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>GLM-5

    百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5 中取得
    的头像 发表于 01-30 10:03 812次阅读
    百度正式发布并<b class='flag-5'>开源</b>新一代文档解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    “明牌”对局,自变量开源模型超越pi0

    “明牌”对局,自变量开源模型超越pi0
    的头像 发表于 01-10 12:00 5756次阅读
    “明牌”对局,自变量<b class='flag-5'>开源</b><b class='flag-5'>模型</b>超越pi0

    成都汇阳投资关于国产开源模型持续突破,国产AI 竞争力增强

           国产开源模型领跑 ,AI 生态有望加速繁荣 根据独立 AI 基准测试与分析平台 Artificial Analysis 最新榜单 , 国产模型 KimiK2Thinking
    的头像 发表于 11-24 14:01 734次阅读

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 1020次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产力!
    的头像 发表于 08-14 11:34 1557次阅读

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源大语言模型。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该模型的第零日(Day 0)部署与性能优化。值得一
    的头像 发表于 08-07 14:42 1535次阅读
    硬件与应用同频共振,英特尔Day 0适配腾讯<b class='flag-5'>开源</b>混元大<b class='flag-5'>模型</b>

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放模型
    的头像 发表于 08-06 14:25 1147次阅读

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    , Gemma等开源模型。当然,一些闭源的(类似chatgpt, gemini)是不支持部署的。如下图: 在端侧部署大模型,个人认为最大的好处:是可以避免因文本或图片上传而造成的信
    发表于 07-19 15:45

    瑞金医院携手华为开源RuiPath病理模型

    近日,由上海交通大学医学院附属瑞金医院(以下简称“瑞金医院”)主办、华为技术有限公司协办的“瑞金医院RuiPath病理模型开源及成果发布会”在上海举行。瑞金医院联合华为开源RuiPath病理
    的头像 发表于 07-02 14:57 1097次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。 此举是华为践行昇腾生态战
    的头像 发表于 06-30 11:19 1443次阅读

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    开源新一代通义千问模型Qwen3。据悉,Qwen3模型参数量仅为DeepSeek - R1的1/3,能够大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球顶尖
    的头像 发表于 04-30 16:08 1502次阅读