0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Meta AI重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-24 15:00 次阅读

昨天Meta AI+CMU这篇文章一出,twitter都炸了!

LIMA,只使用1000个精心挑选的样本微调一个 65B LLaMa,无需RLHF,性能媲美甚至优于GPT-4!

42dab890-f915-11ed-90ce-dac502259ad0.png

论文:LIMA: Less Is More for Alignment
地址:https://arxiv.org/pdf/2305.11206.pdf

天下人苦“对齐”久矣!要让预训练语言模型的响应和特定任务和用户偏好对齐,动辄需要百万示例数据集上的instruction tuning、以及最近从人类反馈中进行的强化学习,才能实现ChatGPT级别的性能。

这篇文章旨在用简单的方法解决复杂的对齐问题,作者提出表面对齐假说(Superficial Alignment Hypothesis),将对齐视为一个简单的过程:学习与用户交互的样式或格式,来展示预训练期间就已经获得的知识和能力!

结果发现,少量高质量样例上的简单微调就足以与当今最先进的技术竞争!这也证明预训练过程的强大威力和重要性,远胜于大规模instruction tuning和强化学习!

4305ce22-f915-11ed-90ce-dac502259ad0.jpg

实验设置

数据集来源:这1000个近似真实用户提示和高质量响应的示例中,有750个来自Stack Exchange和wikiHow这样的社区论坛,其余250个则是手动编写。

微调的超参数:使用AdamW进行微调,其中,权重衰减为0.1。没有热身步骤,初始学习率设置为,并线性地降至训练结束时的。批量大小设为32个示例(更小的模型为64个),长度大于2048 token的文本将被裁剪。与以往的显著不同是在残差连接上应用dropout,从底层的 开始,线性升高到最后一层的 (更小的模型为 )。

基准模型

实验将 LIMA 与五个基准模型进行比较:

(1)Alpaca 65B:将 LLaMa 65B 在 Alpaca 训练集中的 52,000 个样例上进行微调;(2) OpenAI 的DaVinci003,经过 RLHF 训练的大语言模型;(3) 基于 PaLM 的 谷歌Bard;(4) Anthropic 的Claude, 52B 参数,经过从 AI 反馈进行强化学习 (Constitutional AI) 训练;(5) OpenAI 的GPT-4,经过 RLHF 训练,目前认为最先进的大语言模型。

结果

根据人类偏好的实验结果,LIMA 的表现比 Alpaca 65B 和 DaVinci003 都要更好!尽管Alpaca 65B 的训练数据量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一种被认为是更优秀的对齐方法。

Bard 情况要好,在 42% 的时间产生了比 LIMA 更好的响应;然而,这也意味着至少58%的时间, LIMA 的表现和 Bard 相当。

最后,虽然 Claude 和 GPT-4 通常比 LIMA 的表现更加出色,但很多情况下,LIMA 确实能产生更好的响应。有些讽刺的是,即使是 GPT-4 也有19% 的时间会认为 LIMA 的输出更好。

43353a0e-f915-11ed-90ce-dac502259ad0.png

我们来欣赏下LLaMa的出色表演。蓝色文本为prompt,左边是与训练集中示例相关的提示,中间是训练集中不存在的提示,右边则是挑战模型拒绝不安全行为。

4340f290-f915-11ed-90ce-dac502259ad0.png

数据质量和多样性更重要

为了证明LIMA (Less Is More for Alignment)这个少胜于多的观点,作者通过消融实验研究了训练数据的多样性、质量和数量对模型的影响。

结果发现,数据质量对生成质量存在显著影响,使用筛选过的数据集训练的模型与使用未经过滤的数据源训练的模型之间存在0.5分差异。但是,令人惊讶的是,示例数量的加倍并不能改善响应的质量。这表明对齐的 scaling laws 不仅仅取决于数量,而在于保证质量的同时提高提示的多样性。

43505276-f915-11ed-90ce-dac502259ad0.png

多轮对话

不过,一个仅在1,000个单轮对话上进行微调的模型能否从事多轮对话(Multi-Turn Dialogue)呢?

在零样本上,LIMA的响应出奇地连贯,并引用了前面对话的信息。但很明显,这个模型正在超出分布范围;在10次交流中有6次,LIMA在3个互动之内未能遵循提示。

为了提高对话能力,作者收集了30个多轮对话链。使用组合的1,030个示例对预训练的LLaMa模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。发现加入这30个示例后生成质量显著提升,优质响应比例从45.2%提高到76.1%!

43857960-f915-11ed-90ce-dac502259ad0.png

30个样本的有限监督就能调用模型的多轮对话能力,这也支持了作者提出的表面对齐假说,即:这些能力是在预训练期间学习的。

总结

作者在discussion部分指出了该方法的一系列问题:比如构建数据集示例需要巨大的脑力投入、难以扩展,不如产品级别的模型稳健等~

话虽如此,这篇研究证明了简单方法就有解决复杂对齐问题的潜力。几乎所有大语言模型中的知识都是在预训练期间学习的,教导模型产生高质量输出只需少量但精心的instructional tuning.

简单才是王道!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    433

    浏览量

    10043
  • CMU
    CMU
    +关注

    关注

    0

    文章

    19

    浏览量

    15129
  • ChatGPT
    +关注

    关注

    27

    文章

    1406

    浏览量

    4655

原文标题:Meta AI 重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ChatGPT升级 OpenAI史上最强大模型GPT-4发布

    ChatGPT升级 史上最强大模型GPT-4发布 OpenAI正式推出了ChatGPT升级版本,号称史上最强大模型GPT-4发布。OpenAI期待GPT-4成为一个更有价值的
    的头像 发表于 03-15 18:15 2415次阅读

    Open AI团队发推正式宣布:GPT-4来了!

    对于 GPT-4 的实际能力,团队也给大家提前打了一针强心剂,即便 GPT-4 在许多现实世界场景中能力不如人类,但在各种专业和学术基准上的表现,还是超过了人类的平均水平。
    的头像 发表于 03-16 11:10 1690次阅读

    关于GPT-4的产品化狂想

    GPT-4是条件,而不是结果
    的头像 发表于 03-26 10:48 2594次阅读
    关于<b class='flag-5'>GPT-4</b>的产品化狂想

    GPT-4是这样搞电机的

    GPT-4写电机基础程序没问题
    的头像 发表于 04-17 09:41 672次阅读
    <b class='flag-5'>GPT-4</b>是这样搞电机的

    微软GPT-4搜索引擎重大升级 新Bing开放AI能力

    GPT-4GPT-4有更强悍的能力可以提供创意性文章创作和图像识别功能。微软马上跟进,宣布旗下的Bing Chat已经升级使用了OpenAI提供的GPT-4技术。 现在,微软公司在官网声明称,基于
    的头像 发表于 05-05 17:15 2225次阅读

    一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA

    该研究使用了一个 65B 参数的 LLaMa 模型(该模型称为 LIMA)在 1000 个精选样本上进行有监督学习,在完全没使用 RLHF 方法的情况下,LIMA 表现出非常强大的性能,并且能够很好地泛化到训练数据以外的任务上。
    的头像 发表于 05-24 11:46 588次阅读
    一样<b class='flag-5'>媲美</b><b class='flag-5'>GPT-4</b>、Bard,<b class='flag-5'>Meta</b>发布650亿参数语言模型<b class='flag-5'>LIMA</b>

    GPT-4处于一个什么样的编码地位

    Greg Brockman 演示了 GPT-4 将一张手绘草稿架构图变成一个现实可滑动的网站;同时,它也能帮助我们直接生成代码,甚至当我们把代码运行报错的界面截一个图发给 GPT-4 时,它就能给出相应的解决
    的头像 发表于 06-16 10:42 432次阅读
    <b class='flag-5'>GPT-4</b>处于一个什么样的编码地位

    GPT-4已经会自己设计芯片了吗?

      GPT-4已经会自己设计芯片了!芯片设计行业的一个老大难问题HDL,已经被GPT-4顺利解决。并且,它设计的130nm芯片,已经成功流片。 GPT-4,已经可以帮人类造芯片了! 只用简单的英语
    的头像 发表于 06-20 11:51 600次阅读
    <b class='flag-5'>GPT-4</b>已经会自己设计芯片了吗?

    GPT-4催生的接口IP市场空间

    GPT-4大语言模型公布以来,百度、阿里、知乎、出门问问等国内互联网公司纷纷跟进,在近两个月中相继推出了自家的产品。日前,鲜有公开演讲的奇绩创坛创始人兼CEO陆奇也分享了他对大模型时代的宏观思考
    的头像 发表于 07-03 14:17 514次阅读

    GPT-4没有推理能力吗?

    今年三月,OpenAI 重磅发布了 GPT-4 大模型,带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中,「
    的头像 发表于 08-11 14:20 666次阅读
    <b class='flag-5'>GPT-4</b>没有推理能力吗?

    ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3

    ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3 目前OpenAI算是全球大模型的引领者,一举一动都牵动着大家的关注,现在ChatGPT迎来重磅更新。 OpenAI
    的头像 发表于 11-07 18:20 2156次阅读
    ChatGPT<b class='flag-5'>重磅</b>更新 OpenAI发布<b class='flag-5'>GPT-4</b> Turbo模型价格大降2/3

    AI观察 | 今年最火的GPT-4,正在缔造科幻版妙手仁心!

    近来,微软对于提示工程能力的最新研究 1 (链接详见文末)再次吸引了一众媒体的目光:“无需额外微调、无需专业策划,仅凭提示GPT-4就能化身专家!”报道中这样描述道 2 。 基于最新提
    的头像 发表于 12-11 08:15 255次阅读
    <b class='flag-5'>AI</b>观察 | 今年最火的<b class='flag-5'>GPT-4</b>,正在缔造科幻版妙手仁心!

    ChatGPT plus有什么功能?OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能

    OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能分析解答 在最近的OpenAI DevDay上,该组织发布了一项备受期待的公告:推出GPT-4 Turbo,这是对其突破性AI
    的头像 发表于 12-13 09:19 595次阅读
    ChatGPT plus有什么功能?OpenAI 发布 <b class='flag-5'>GPT-4</b> Turbo 目前我们所知道的功能

    OpenAI推出ChatGPT新功能:朗读,支持37种语言,兼容GPT-4GPT-3

    据悉,“朗读”功能支持37种语言,且能够自主识别文本类型并对应相应的发音。值得关注的是,该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了OpenAI致力于“多模态交互”(multimodal capab
    的头像 发表于 03-05 15:48 269次阅读

    微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

    起初,Copilot作为Bing Chat AI助手推出,初期采用GPT-3.5模型,随后升级至GPT-4取得显著进步,如今再次更新至性能卓越的GP
    的头像 发表于 03-13 13:42 243次阅读