0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平

OSC开源社区 来源:OSC开源社区 2023-04-06 11:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持。

根据介绍,通过根据从 ShareGPT.com (一个用户可以分享他们的 ChatGPT 对话的网站) 收集的用户共享对话微调 LLaMA 基础模型,Vicuna-13B 与 Stanford Alpaca 等其他开源模型相比展示了具有竞争力的性能。

以 GPT-4 为评判标准的初步评估显示,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时在 90% 以上的情况下超过了 LLaMA 和 Stanford Alpaca 等其他模型的表现。训练 Vicuna-13B 成本约为 300 美元。训练和服务代码,以及在线演示都是公开的,可用于非商业用途。

f66c4af6-d40b-11ed-bfe3-dac502259ad0.png

为了确保数据质量,Vicuna 团队将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。以及将冗长的对话分成更小的部分,以适应模型的最大上下文长度。其训练方法建立在 Stanford Alpaca 的基础上,并进行了以下改进:

内存优化:为了使 Vicuna 能够理解长上下文,开发团队将最大上下文长度从 Alpaca 中的 512 扩展到 2048,大大增加了 GPU 内存需求。通过利用 utilizing gradient checkpointing 和 flash attention 来解决内存压力。

多轮对话:调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

通过 Spot 实例降低成本:40 倍大的数据集和 4 倍的训练序列长度对训练费用提出了相当大的挑战。Vicuna 团队使用 SkyPilot managed spot 来降低成本,方法是利用更便宜的 spot 实例以及自动恢复抢占和自动区域切换。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

Vicuna 团队构建了一个服务系统,该系统能够使用分布式 workers 为多个模型提供服务;它支持来自本地集群和云的 GPU worker 的灵活插件。通过利用 SkyPilot 中的容错控制器和 managed spot 功能,该服务系统可以很好地与来自多个云的更便宜的 spot 实例一起工作,以降低服务成本。它目前是一个轻量级的实现,未来将努力将集成更多的最新研究成果。

具体来说,开发团队首先从 ShareGPT.com 收集了大约 7 万个对话,然后增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列;训练在一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成。为了提供演示服务,他们还实现了一个轻量级的分布式服务系统。通过创建一组 80 个不同的问题并利用 GPT-4 来判断模型输出,对模型质量进行了初步评估。为了比较两个不同的模型,团队成员将每个模型的输出组合成每个问题的单个提示。然后将提示发送到 GPT-4,GPT-4 评估哪个模型提供更好的响应。

f6b1275c-d40b-11ed-bfe3-dac502259ad0.png

LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细对比如下:

f6e820cc-d40b-11ed-bfe3-dac502259ad0.png

Vicun 团队展示了 Alpaca 和 Vicuna 对基准问题的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调后,其发现与 Alpaca 相比,Vicuna 能够生成更详细、结构更合理的答案,并且质量与 ChatGPT 相当。

例如,在要求 “撰写一篇引人入胜的旅游博文,介绍最近的夏威夷之行,突出文化体验和必去的景点” 时,GPT-4 的评价得分为:Alpaca-13b 7/10,Vicuna-13b 10/10。并阐述理由称,Alpaca 提供了旅行博文的简要概述,但没有按照要求实际撰写博文,导致得分较低。Vicuna-13b 则就最近的夏威夷之行撰写了一篇详细而有吸引力的旅游博文,强调了文化体验和必看的景点,完全满足了用户的要求,因此获得了较高的分数。

与此同时,Vicun 的初步发现表明,在比较聊天机器人的答案时,GPT-4 可以产生高度一致的等级和详细的评估。下图中总结的基于 GPT-4 的初步评估显示,Vicuna 达到了 Bard/ChatGPT 的 90% 能力。不过总的来说,为聊天机器人建立一个评估系统仍是一个需要进一步研究的开放式问题。

f70dc6ce-d40b-11ed-bfe3-dac502259ad0.png

Vicun 团队提出了一个基于 GPT-4 的评估框架来自动评估聊天机器人的性能。设计了八个问题类别,以测试聊天机器人性能的各个方面。并基于每个类别选择十个问题,分别由 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 生成答案,然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估答案质量。结果发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数(详细示例链接)。但在判断编码 / 数学任务方面,GPT-4 则不太擅长。

f7292e00-d40b-11ed-bfe3-dac502259ad0.png

数据表明在超过 90% 的问题中,相较 LLaMA、Alpaca 等,GPT-4 更倾向 Vicuna 生成的答案,并且它实现了可与专有模型(ChatGPT、Bard)竞争的性能。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为优于或等于 ChatGPT 的回答。

f764593a-d40b-11ed-bfe3-dac502259ad0.png

总的来说,虽然最近行业发展如火如荼,但事实上聊天机器人仍然面临局限性,例如难以解决基本的数学问题或编码能力有限。且为聊天机器人开发一个全面、标准化的评估系统,也是一个需要进一步研究的悬而未决的问题。

开发团队承认,Vicuna 不擅长涉及推理或数学的任务,并且在准确识别自己或确保其输出的事实准确性方面可能存在局限性。此外,它还没有得到充分优化以保证安全性或减轻潜在的毒性或偏见。为了解决安全问题,他们使用 OpenAI moderation API 来过滤掉在线演示中不适当的用户输入。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4049

    浏览量

    45599
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26063
  • 聊天机器人
    +关注

    关注

    0

    文章

    348

    浏览量

    13044
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9829

原文标题:低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    更多"、"互动更流畅"是开发者面临的核心挑战。传统的单一屏幕和有限的视觉输入已成为提升机器人智能化水平的瓶颈。而瑞芯微RK3576高性能处理器的出现
    发表于 10-29 16:41

    机器人消息:智元机器人获富临精工数千万元订单 越疆发布二代人形机器人平台

    机器人数量2035年将超过200万台,2050年将超过3亿台,2050年市场规模将达1.4万亿~1.7万亿美元,人形机器人的价格成本或将下降七成以上。业界多认为人形
    的头像 发表于 08-11 16:19 1119次阅读

    工业机器人的特点

    0.3%的年化生产力提升。因此,发展工业机器人推动国内自动化水平,提高产出是目前的不二之选。 ** 适用范围广** 机器人相对于工人的优势还体现在应用范围广。机器人可以运用在危险、恶劣
    发表于 07-26 11:22

    全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式开源

    机器人操作系统M-RobotsOS,推动机器人行业生态融合、能力复用、智能协同。构建机器人共通语言解决产业协同难题机器人行业正面临两大关键挑战:一方面,传统通用操
    的头像 发表于 07-24 10:56 829次阅读
    全国首个<b class='flag-5'>开源</b>鸿蒙<b class='flag-5'>机器人</b>操作系统 M-Robots OS 正式<b class='flag-5'>开源</b>

    小智 AI 聊天机器人 (XiaoZhi AI Chatbot)

    小智 AI 聊天机器人是一款基于开源硬件的智能对话设备,由开发者“虾哥”以 ​MIT 许可证发布,旨在帮助用户入门 AI 硬件开发,将大语言模型(LLM)应用于实体设备中。小智 AI 聊天机器人
    的头像 发表于 05-30 15:56 1.2w次阅读
    小智 AI <b class='flag-5'>聊天机器人</b> (XiaoZhi AI Chatbot)

    盘点#机器人开发平台

    地瓜机器人RDK X5开发套件地瓜机器人RDK X5开发套件产品介绍 旭日5芯片10TOPs算力-电子发烧友网机器人开发套件 Kria KR260机器人开发套件 Kria KR260-
    发表于 05-13 15:02

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    全球80多个国家和地区。 近日,大象机器人联合进迭时空推出全球首款RISC-V全栈开源六轴机器臂“myCobot 280 RISC-V”,为开发者打造全新的机器人
    发表于 04-25 17:59

    开源鸿蒙助力人形机器人产业发展

    在近日举办的全球首个人形机器人半程马拉松的赛场上,搭载开放原子开源基金会旗下开源鸿蒙操作系统的“夸父”人形机器人以矫健的身姿参赛引发广泛关注。
    的头像 发表于 04-23 17:35 1172次阅读

    NVIDIA Isaac GR00T N1开源人形机器人基础模型+开源物理引擎Newton加速机器人开发

    NVIDIA Isaac GR00T N1开源人形机器人基础模型+开源物理引擎Newton加速机器人开发
    的头像 发表于 03-20 16:56 1303次阅读

    开源项目!基于Arduino控制的六足机器人

    步骤,完整复现这款低成本、高性能的六足机器人。开发过程中建议使用支架辅助调试,避免足部意外触地。如需进一步优化步态或扩展功能,可基于提供的Arduino代码进行二次开发。 其他代码资料:*附件:机器人
    发表于 03-03 11:25

    马斯克DOGE团队开发政府AI聊天机器人

    近日,据媒体引述消息人士透露,全球首富马斯克旗下的政府效率部门(DOGE)正着手为美国联邦总务署(GSA)打造一款定制的生成式人工智能(GenAI)聊天机器人——GSAi。
    的头像 发表于 02-10 18:04 1041次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    引入GPT这样的大模型后,情况发生了根本性的变化。只需提供适当的提示词以及封装好的机器人函数库,大模型便能灵活地生成控制代码,极大地简化了开发过程,并提高了自动化水平。 此外,大模型凭借强大的推理能力
    发表于 12-29 23:04

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    研读《具身智能机器人系统》第7-9章,我被书中对大模型与机器人技术融合的深入分析所吸引。第7章详细阐述了ChatGPT for Robotics的核心技术创新:它摒弃了传统的分层控制架构,创造性地
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    ,数据对于训练增强和优化机器人能力的深度学习模型至关重要。 从财务上讲,用户数据对互联网公司具有重要价值,估计每个用户 600 美元,考虑到大规模商业化后每个机器人的估计成本为 35000 美元,可以
    发表于 12-24 00:33

    《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

    将大模型的\"大脑\"装入物理实体的\"身躯\",让AI真正走进现实世界。这种革新不仅体现在稚晖君开源的人形机器人方案,更在“AI教母”李飞飞的VoxPoser
    发表于 12-19 22:26