0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

与ChatGPT性能最相匹配的开源模型

深度学习自然语言处理 来源:深度学习自然语言处理 2023-04-06 10:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言

最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B,通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估,发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上,同时在 90% 情况下都优于 LLaMA 和 Alpaca 等其他模型。训练 Vicuna-13B 的费用约为 300 美元。训练和代码[1]以及在线演示[2]已公开。

Vicuna到底怎么样?

Vicuna在官网中通过和Alpaca、LLaMA、ChatGPT和Bard对比,然后通过GPT4当裁判来打出分数,具体如下。

13c714ec-d401-11ed-bfe3-dac502259ad0.png

问题

13de1fde-d401-11ed-bfe3-dac502259ad0.png

Alpaca-13b vs Vicuna

140b2c9a-d401-11ed-bfe3-dac502259ad0.png

LLaMA-13b vs Vicuna

1430ff2e-d401-11ed-bfe3-dac502259ad0.png

ChatGPT vs Vicuna

1454ff3c-d401-11ed-bfe3-dac502259ad0.png

Bard vs Vicuna

可以看出,Vicuna的回答还是非常棒的,让GPT4来打分,Vicuna和ChatGPT是十分接近的,远远高于Alpaca和LLaMA。

如果大家想试试别的问题,可以自己去尝试[3]哈。

1476f48e-d401-11ed-bfe3-dac502259ad0.png

可换不同类型的不同问题

然而,官方认为评估聊天机器人绝非易事,听过GPT4进行评估是一件十分不严格的事情,但是目前还是无法解决评估的问题,需要后续学者进行进一步探索。

148f1b54-d401-11ed-bfe3-dac502259ad0.png

图1 GPT-4 评估

在线demo

14a82ec8-d401-11ed-bfe3-dac502259ad0.png

概述

14cef7ec-d401-11ed-bfe3-dac502259ad0.png

图2 工作流

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如表 1 所示。

14f36212-d401-11ed-bfe3-dac502259ad0.png

表1 一些模型的对比

训练

Vicuna 是通过使用从 ShareGPT.com 使用公共 API 收集的大约 7万 用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量,将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。

训练方法建立在斯坦福alpaca的基础上,并进行了以下改进。

内存优化:为了使 Vicuna 能够理解长上下文,将最大上下文长度从alpaca 中的 512 扩展到 2048。还通过gradient checkpointingflash attentio来解决内存压力。

多轮对话调整训练损失考虑多轮对话,并仅根据聊天机器人的输出进行微调。

通过 Spot 实例降低成本:使用 SkyPilot 托管点来降低成本。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

150d9588-d401-11ed-bfe3-dac502259ad0.png

图3 通过GPT4来评估打分

153299aa-d401-11ed-bfe3-dac502259ad0.png

通过GPT4评估得出的总分






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30580

    浏览量

    219497
  • CMU
    CMU
    +关注

    关注

    0

    文章

    21

    浏览量

    15563
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16712
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10070

原文标题:Vicuna:与ChatGPT 性能最相匹配的开源模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 538次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放模型
    的头像 发表于 08-06 14:25 877次阅读

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    , Gemma等开源模型。当然,一些闭源的(类似chatgpt, gemini)是不支持部署的。如下图: 在端侧部署大模型,个人认为最大的好处:是可以避免因文本或图片上传而造成的信
    发表于 07-19 15:45

    瑞金医院携手华为开源RuiPath病理模型

    近日,由上海交通大学医学院附属瑞金医院(以下简称“瑞金医院”)主办、华为技术有限公司协办的“瑞金医院RuiPath病理模型开源及成果发布会”在上海举行。瑞金医院联合华为开源RuiPath病理
    的头像 发表于 07-02 14:57 780次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。 此举是华为践行昇腾生态战
    的头像 发表于 06-30 11:19 1103次阅读

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    开源新一代通义千问模型Qwen3。据悉,Qwen3模型参数量仅为DeepSeek - R1的1/3,能够大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球顶尖
    的头像 发表于 04-30 16:08 1127次阅读

    构建开源OpenVINO™工具套件后,模型优化器位于何处呢?

    构建开源OpenVINO™工具套件后,模型优化器位于何处?
    发表于 03-06 08:18

    AI开源模型库有什么用

    AI开源模型库作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源模型库有什么用。
    的头像 发表于 02-24 11:50 883次阅读

    模型训练:开源数据与算法的机遇与挑战分析

    最近,开源中国 OSCHINA、Gitee 与 Gitee AI 联合发布了《2024 中国开源开发者报告》。 报告聚焦 AI 大模型领域,对过去一年的技术演进动态、技术趋势、以及开源
    的头像 发表于 02-20 10:40 993次阅读
    大<b class='flag-5'>模型</b>训练:<b class='flag-5'>开源</b>数据与算法的机遇与挑战分析

    阶跃星辰开源多模态模型,天数智芯迅速适配

    近日,头部大模型创业公司阶跃星辰在行业内引起了轩然大波,宣布正式开源两款Step系列多模态模型——Step-Video-T2V视频生成模型和Step-Audio语音交互
    的头像 发表于 02-19 14:30 817次阅读

    开源模型DeepSeek的开放内容详析

    当大家讨论为什么 DeepSeek 能够形成全球刷屏之势,让所有厂商、平台都集成之时,「开源」成为了最大的关键词之一,图灵奖得主 Yann LeCun 称其是「开源的胜利」。模型开源
    的头像 发表于 02-19 09:48 2418次阅读
    <b class='flag-5'>开源</b>大<b class='flag-5'>模型</b>DeepSeek的开放内容详析

    开源模型在多个业务场景的应用案例

    在人工智能发展浪潮中,大模型开源与闭源之争一直是业内的热点话题。随着技术的不断进步和应用场景的日益丰富,如何降低大模型的使用门槛,让更多人能够便捷地应用于实际业务场景,成为了推动行业发展的关键所在。而
    的头像 发表于 12-30 10:16 1664次阅读

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    阅读之旅。在翻开这本书之前,我对大模型的认知仅仅停留在它是一种强大的人工智能技术,可以进行自然语言处理、图像识别等任务。我知道像 ChatGPT 这样的应用是基于大模型开发的,能够与人类进行较为流畅
    发表于 12-24 13:10

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执行特定的任务。以下,是对
    的头像 发表于 12-14 10:33 1287次阅读

    OpenAI发布满血版ChatGPT Pro

    科技巨头OpenAI近期宣布了一项重大更新,正式推出了其备受期待的“满血版”ChatGPT Pro。这一新版本基于全新的推理模型o1,旨在为用户提供更为强大的处理能力和更高质量的回答。 据了解
    的头像 发表于 12-06 11:10 1101次阅读