0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RLAIF:一个不依赖人工的RLHF替代方案

深度学习自然语言处理 来源:深度学习自然语言处理 2023-09-08 16:38 次阅读

LLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。

基于人类反馈的强化学习(RLHF)通过收集人类反馈,以强化学习方法训练LLM,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢?

RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义,RLAIF是指使用LLM来代替人类标记偏好,基于这些标记数据训练奖励模型,然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。

a403e6ba-4e1e-11ee-a25d-92fbcf53809c.png

如图所示,在RLAIF中,首先使用LLM来评估给定的文本和2个候选回复,然后,这些由LLM生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图,遵循以下流程:

Preamble-描述任务介绍和说明

Few-shot exemplars(可选)

Sample to annotate

结束字符串

a4566f7a-4e1e-11ee-a25d-92fbcf53809c.png

在这篇研究中,作者还探索了:

避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序,尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响,作者进行了双重推理和平均处理。

a493106a-4e1e-11ee-a25d-92fbcf53809c.png

prompt改进: 还尝试了使用思维链(CoT)推理和self-consistency等方法促进LLM的评估。

实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

对于RLHF方法,奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。

对于RLAIF方法,使用PaLM 2 L生成AI标记的偏好

对于强化学习,使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现:

在性能方面:RLAIF与RLHF有相似的表现。

在人类评估上,与SFT策略相比,RLAIF被偏好71%的时间,而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF,但这个差异在统计上并不显著。

a4c5778a-4e1e-11ee-a25d-92fbcf53809c.png

直接对比胜率:RLAIF与RLHF在被偏好的程度上是平等的,胜率都是50%。

与人工写的摘要比较:RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好,与参考摘要的差异也不具统计意义。

影响因素:RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要,这可能是质量提升的一个因素。

长度调整后表现:即使控制摘要的长度,RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。

a4e1a2de-4e1e-11ee-a25d-92fbcf53809c.png

对于prompt方式,使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性,甚至可能使它变得更糟。

a510c532-4e1e-11ee-a25d-92fbcf53809c.png

Self-Consistency with CoT对性能的影响如下,用T=1采样会导致与人类偏好的一致性较低。

a539a9ca-4e1e-11ee-a25d-92fbcf53809c.png

作者还对用于评估的LLM的参数大小进行了探索,发现与人类偏好的一致性随着LLM大小的增加而增加。

a5520c36-4e1e-11ee-a25d-92fbcf53809c.png

总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是,为了更好地了解这些发现是否能推广到其他NLP任务,还需要在更广泛的任务范围内进行实验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47689
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11114
  • LLM
    LLM
    +关注

    关注

    0

    文章

    202

    浏览量

    233

原文标题:RLAIF:一个不依赖人工的RLHF替代方案

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    SILABS CP2103芯片是否不依赖于我错过的微/ picoblaze处理器?

    /TechnicalDocs/CP2103.pdf几乎没有说明这个芯片的使用情况(除了告诉我RTS和CTS之外)活跃的低)。这个芯片的vhdl或verilog示例代码是否不依赖于我错过的微/ picoblaze处理器
    发表于 07-23 13:00

    不依赖于棋盘格等辅助标定物体实现像素级相机和激光雷达自动标定的方法

    主要内容本文提出了不依赖于棋盘格等辅助标定物体,实现像素级相机和激光雷达自动标定的方法。方法直接从点云中提取3D边特征,避免遮挡问题,并且使用了精确度更高的深度连续边。文中首先指出:以下四种
    发表于 09-01 07:42

    种大电流无传感器BLDC电机控制器电路

      在这篇文章中,我们将讨论种大电流无传感器 BLDC电机控制器电路,该电路不依赖于霍尔效应传感器来启动操作,而是利用电机的反电动势进行顺序输入   对于正确的换向,大多数三相 BLDC 驱动器
    发表于 09-14 16:09

    自抗扰控制技术介绍

    Controliler,ADRC)技术。是发扬PID控制技术的精髓并吸取现代控制理论成就。运用计算机仿真试验结果的归纳和综合中探索出来的。是不依赖于被控对象精确模型的、能够替代PID控制技术的、新型实用数字控制技术。
    发表于 09-28 06:04

    一个新的Ad hoc安全组密钥管理方案

    本文基于可验证的门限秘密共享技术,提出一种分布式的可验证组密钥管理方案。该方案具有不依赖于网络拓扑结构的变化,在恶劣的网络攻击环境中仍能有效的更新组通信密钥。
    发表于 05-25 13:49 7次下载

    飞兆半导体智能高侧开关提供可靠解决方案替代分立设计

    在现今的汽车应用中,设计人员需要把大电流可靠和安全地引流到接地的阻性或感性负载,这类应用包括:白炽灯、电机控制和加热器件等。现在要实现这一目的,设计人员不得不依赖
    发表于 05-04 09:13 707次阅读
    飞兆半导体智能高侧开关提供可靠解决<b class='flag-5'>方案</b><b class='flag-5'>替代</b>分立设计

    据调查64%的人表示:日常生活中不依赖物联网设备

    大多数人(64%)表示,他们不依赖连网设备来完成日常活动,这一比例是36%的人表示他们依靠设备来度过日常生活的两倍。领先的B2B研究、评级和评论公司Clutch一项新调查发现,67%拥有连网设备的人拥有智能家用电器,如智能冰箱、烤箱或电视。
    发表于 10-27 10:13 1744次阅读

    量子技术革GPS的命:不依赖卫星就可以进行导航

    导航卫星系统(GNSS),这类系统可以发送和接收来自绕地球运行的卫星的信号。量子加速度计是一个独立的系统,不依赖任何外部信号。 这一点尤其重要,因为卫星信号可能因高层建筑物等阻碍因素而无法使用,或者可能被堵塞、模仿或拒绝,因而无法进行
    发表于 11-19 16:22 287次阅读

    PHP简单实现不依赖于Unix系统Cron的定时任务程序资料说明

    本文档的主要内容详细介绍的是PHP简单实现不依赖于Unix系统Cron的定时任务程序资料说明。
    发表于 03-01 16:52 2次下载
    PHP简单实现<b class='flag-5'>不依赖</b>于Unix系统Cron的定时任务程序资料说明

    INS是一种不依赖于外部信息的自主式导航系统

    惯性导航系统(INS)也称作惯性参考系统,是一种不依赖于外部信息、也不向外部辐射能量(如无线电导航那样)的自主式导航系统。其工作环境不仅包括空中、地面,还可以在水下。 惯性导航的基本工作原理是以牛顿
    发表于 06-08 15:29 2128次阅读

    一个种不依赖昂贵检测设备的偏置电流测试方法

    本篇介绍一个种不依赖昂贵检测设备的偏置电流测试方法,同时配合LTspice仿真增强理解。工程师可以在普通实验室环境中,根据该方法调整放大器局部电路实现偏置电流的准确测量。 如图2.36
    的头像 发表于 09-30 16:08 2705次阅读
    一个种<b class='flag-5'>不依赖</b>昂贵检测设备的偏置电流测试方法

    以色列成立新研究中心,开发不依赖GPS的导航系统

    以色列开发不依赖GPS的导航技术 据C4ISR网站2021年3月18日报道,以色列国防部和以色列航空工业公司(IAI)成立了一个新的研究中心,开发不依赖于易中断的GPS的导航系统。全球军事力量都在
    的头像 发表于 04-12 09:43 1742次阅读

    智行者发布国内首款不依赖高精地图的高级别自动驾驶解决方案

    与市场上其他高速领航系统不同,智行者的H-INP采用了“重感知 轻地图”的技术方案,成为国内首款不依赖高精地图的高级别自动驾驶解决方案
    的头像 发表于 08-19 10:19 2266次阅读

    一个种不依赖昂贵检测设备的偏置电流测试方法

    本篇介绍一个种不依赖昂贵检测设备的偏置电流测试方法,同时配合LTspice仿真增强理解。工程师可以在普通实验室环境中,根据该方法调整放大器局部电路实现偏置电流的准确测量。
    发表于 02-22 14:17 369次阅读
    一个种<b class='flag-5'>不依赖</b>昂贵检测设备的偏置电流测试方法

    百度CEO李彦宏:不会受制于美国限制,中国AI发展仍有强大动力

    李彦宏指出,对于文心大模型这类情境,他并不依赖英伟达的尖端芯片,百度现有芯片储备以及可采购的替代产品已能满足大众AI需求。
    的头像 发表于 03-08 15:17 195次阅读