0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于表征工程的生成式语言大模型人类偏好对齐策略

深度学习自然语言处理 来源:FudanNLP 2024-01-03 14:25 次阅读

最近复旦大学自然语言处理组郑骁庆和黄萱菁团队提出了基于表征工程(Representation Engineering)的生成式语言大模型人类偏好对齐方法RAHF(如图1所示),作为基于人类反馈的强化学习算法RLHF[1]的代替方法之一,其性能上超过其他现有的替代方案,媲美RLHF。实现较为简单,训练时对于硬件资源要求也相对较低。

论 文 内容

动机

62b7baae-aa00-11ee-8b88-92fbcf53809c.png

图1.不同人类偏好对齐算法的对比。(a)人类反馈的强化学习算法RLHF;(b)基于对比学习的偏好优化方法DPO;(c)基于提示工程的HIR;(d) 基于表征工程的RAHF。

构建类似ChatGPT生成式语言大模型一般要经过语言模型提令精调强化学习三个主要训练步骤,其中第三步使用强化学习来实现人类期望对齐既有一定的技术难度,又需要多次人工标注反馈,因而实现上有一定挑战。经过前两步语言模型和提令精调之后,语言大模型仍然会生成带有偏见、歧视或者令人不适的回答。为了提升大模型的安全性、可用性和可信性,与人类期望对齐是必不可少的步骤。然而目前研究表明利用人类反馈的强化学习算法[1](RLHF)存在训练不稳定、对超参数敏感和训练代价较高等问题。

针对基于强化学习的人类偏好对齐方法的上述不足,最近提出了一些替代的方法,相关实现思路和方法包括:

(1)借助对比学习的方法[2-4],代表性工作为DPO(Direct preference optimization)[2],即提高符合人类偏好回复生成概率的同时,降低人类满意度较低回复的生成概率;

(2)基于提示工程的方法[5-6],代表性工作为HIR(Hindsight instruction relabeling)[5],即根据与人类偏好相符程度,设计不同的提示。在推理时使用匹配人类偏好较高的提示,从而引出更好的回答。

虽然上述方法都是Reward-free的方法(即不需要训练奖励评估模型),但实验表明这些替代强化学习方法存在容易受到训练集中噪声样本的影响(比如:错误标注、Dull Sentences和较短回复等)。主要原因是它们都是采用在样本上直接精调的方式实现与人类偏好对齐,因而易受样本质量的影响,而基于人类反馈的强化学习算法先训练评估模型,然后采用评估模型的评分来引导模型的训练过程。即使训练样本存在的噪声,也通过评估模型的“过滤”,对最终模型不会产生直接的影响。

方法

为了获得轻量级、易实现和Reward-free的人类偏好对齐方法,同时也缓解最终模型受训练样本中噪声数据的不利影响。受到表征工程Representation Engineering)[7]方面最新进展的启发,我们提出了RAHF(Representation Alignment from Human Feedback)方法。在神经网络中,网络权重决定了隐层表征、隐层表征决定了网络输出、网络输出决定了网络行为(如:安全、真实、偏见等方面)。我们通过首先发现模型在生成不同质量回复时网络隐层激发模式及差异,然后利用差异来对模型行为进行调整和操控。具体方法包括以下三个主要步骤:

(1)使用带偏好注释的数据集来让大型语言模型“感知”人类的偏好;

(2)收集模型在不同偏好“刺激”情况下的隐层激活模式;

(3)利用收集到的激活模式及差异来调整模型使其与与人类偏好对齐。

我们尝试了两种方法让模型“感知”人类偏好:单一模型(RAHF-SCIT)和二元模型(RAHF-DualLLMs)。都取得了不错的结果,虽然二元模型RAHF-DualLLMs性能更佳,但单一模型RAHF-SCIT实现更为简单,对硬件资源的要求也更低。

结果

我们在对话任务上对进行了对比实验。实验结果表明所提出的RAHF人类偏好对齐方法在各项指标上都优于其他非强化学习方法,并取得了与RLHF-PPO相媲美的结果。如表1所示,在Anthropic-HH数据集上相对于首选回复的胜率(结果使用GPT-4进行评判),我们所提出的RAHF-DualLLMs超过了除RLHF-PPO之外的所有代替方法,并且与RLHF-PPO仅有0.01的差距。表2报告了在不同生成采样温度下,偏好注释数据上我们自己所训练的奖励模型(Reward model)和第三方提供的奖励模型上的各方法的平均得分比较,这些数据也与表1的结果相吻合,并且表现出相似的趋势。

62ce68ee-aa00-11ee-8b88-92fbcf53809c.png

表1. 在Anthropic-HH数据集上相对于首选回复的胜率(结果使用GPT-4进行评判)。

62d67b42-aa00-11ee-8b88-92fbcf53809c.png

表2. 在不同生成采样温度下,偏好注释数据上所训练的奖励模型(Reward model)和第三方提供的奖励模型上的各方法的平均得分比较。

这项工作我们尝试了一种受认知神经科学理论启发的基于表征工程来实现生成式语言大模型与人类偏好对齐的策略,旨在提出一种轻量级和易实现的解决方案。目前仍然还有许多可改进的空间,我们希望这项研究能够有助于更可控人工智能技术的发展。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:基于表征工程的生成式语言大模型人类偏好对齐

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.31】大语言模型:原理与工程实践

    的视角,以揭示大语言模型的精妙之处。本书的大特色体现在其知识体系的系统性。我们从数据处理的基础工作(如数据清洗与去重)讲起,逐步深入,探讨预训练、微调技术和强化对齐技术等核心技术环节
    发表于 03-18 15:49

    一种针对存储系统设计的应用级缓存回收策略

    【作者】:孟晓烜;司成祥;那文武;许鲁;【来源】:《小型微型计算机系统》2010年03期【摘要】:针对存储系统中的缓存管理单元设计一种区分应用优先级的缓存回收策略,简称PARP.该策略基于分区缓存
    发表于 04-24 09:43

    一种参数自调节优化控制策略

    和频率波动的问题,该文提出一种参数自调节优化控制策略。首先,建立VSG双机并联系统的小信号模型,分析转动惯量及阻尼系数对输出有功特性的影响;其次,在满足系统动稳态性能的转动惯量及阻尼系数限定取值范围内,根据...
    发表于 09-09 09:08

    怎样去搭建一种STM32代码生成模型

    怎样去搭建一种STM32代码生成模型?要注意哪些问题?
    发表于 10-11 06:25

    怎样去新建一种汇编语言的STM32工程

    Boot模式有哪几种呢?怎样去新建一种汇编语言的STM32工程呢?
    发表于 11-26 06:00

    在KEIL下怎样去创建一种汇编语言STM32工程

    在KEIL下怎样去创建一种汇编语言STM32工程呢?有哪些操作步骤?
    发表于 01-19 07:02

    一种基于策略元素三元组的策略描述语言

    分析常用策略描述语言的缺点,总结策略的主要配置方式,分析策略的组成成员,提出策略主要元素ECA三元组并给出其关系,设计
    发表于 04-09 09:22 19次下载

    一种基于域的递增式策略部署模型

    在介绍策略、域和策略目标等基本概念的基础上,提出了一个通用性的策略部署模型,该模型采用基于域的分层结构,把
    发表于 05-25 21:47 7次下载

    对齐算法解决IPsec安全策略冲突问题

    当前IPsec 的策略系统的策略设置方式很可能引起策略冲突。在分析和比较现有策略生成算法的基础上,提出了右
    发表于 06-26 08:36 9次下载

    基于用户偏好的随机游走模型

    为了提高推荐算法评分预测的准确度,解决冷启动用户推荐问题,在TrustWalker模型基础上提出一种基于用户偏好的随机游走模型-PtTrustWalker。首先,利用矩阵分解法对社会网
    发表于 12-08 17:01 0次下载
    基于用户<b class='flag-5'>偏好</b>的随机游走<b class='flag-5'>模型</b>

    基于用于自然语言生成的“语境调优”技术

    自然语言生成(又称为文本生成)旨在基于输入数据用人类语言生成合理且可读的文本。随着预训练
    的头像 发表于 10-14 15:38 806次阅读

    Meta AI重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐

    天下人苦“对齐”久矣!要让预训练语言模型的响应和特定任务和用户偏好对齐,动辄需要百万示例数据集上的instruction tuning、以及
    的头像 发表于 05-24 15:00 880次阅读
    Meta AI重磅推出LIMA!媲美GPT-4、无需RLHF就能<b class='flag-5'>对齐</b>!

    LLMs实际上在假对齐

    LLM的训练分为预训练和安全训练。预训练是指在大规模语料库上进行训练,因此LLM获得了各种强大的能力,如文本生成、推理和主题知识等。安全训练使用有监督的微调、RLHF、RLAIF和其他技术来对齐模型
    的头像 发表于 11-20 17:41 606次阅读
    LLMs实际上在假<b class='flag-5'>对齐</b>!

    模型人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

    近期的大语言模型(LLM)在自然语言理解和生成上展现出了接近人类的强大能力,远远优于先前的BERT等预训练
    的头像 发表于 01-04 14:06 156次阅读
    <b class='flag-5'>模型</b>与<b class='flag-5'>人类</b>的注意力视角下参数规模扩大与指令微调对<b class='flag-5'>模型</b><b class='flag-5'>语言</b>理解的作用

    语言模型中的语言与知识:一种神秘的分离现象

    自然语言处理领域存在着一个非常有趣的现象:在多语言模型中,不同的语言之间似乎存在着一种隐含的对齐
    发表于 02-20 14:53 152次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>语言</b>与知识:<b class='flag-5'>一种</b>神秘的分离现象