0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-12 11:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大家好,我是zenRRan。

OpenAI在昨天发布了一篇论文:《Language models can explain neurons in language models》,可谓是深度学习可解释性又向前迈了一大步!谁又能想到,使用GPT-4来解释模型的可解释性,用魔法打败魔法,666。

e77cb674-ef0f-11ed-90ce-dac502259ad0.png

大致内容

使用 GPT-4 自动编写大型语言模型中神经元行为的解释,并对这些解释进行打分,并为 GPT-2 中的每个神经元发布了这些(不完美的)解释和分数的数据集。

介绍一下

语言模型变得更强大,部署更广泛,但我们对它们内部工作原理的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是进行胡编乱造。可解释性研究旨在通过查看模型内部来发现更多信息。

可解释性研究的一种简单方法是首先了解各个组件(神经元和注意力头)在做什么。传统上,这需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程不能很好地扩展:很难将它应用于具有数百或数千亿个参数的神经网络。OpenAI提出了一个自动化过程,该过程使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元。

这项工作是对齐研究方法的第三个支柱的一部分:希望使对齐研究工作本身自动化。这种方法的一个有前途的方面是它可以随着人工智能发展的步伐而扩展。随着未来的模型作为助手变得越来越智能和有用,我们会找到更好的解释。

具体如何工作的呢

他们的方法包括在每个神经元上运行 3 个步骤。

第 1 步:使用 GPT-4 生成解释

给定一个 GPT-2 神经元,通过向 GPT-4 显示相关文本序列和激活来生成对其行为的解释。

OpenAI一共举了12个例子,这里我就随便拿出几个代表性的吧。

e793c9ae-ef0f-11ed-90ce-dac502259ad0.png

漫威漫画的氛围

模型生成的解释:参考自电影、角色和娱乐。

e7bea372-ef0f-11ed-90ce-dac502259ad0.png

similes,相似

模型生成的解释:比较和类比,常用“喜欢(like)”这个词。

e7d9db4c-ef0f-11ed-90ce-dac502259ad0.png

shared last names,姓氏

模型生成的解释:姓氏,它们一般跟在名字后面。

第 2 步:使用 GPT-4 进行模拟

再次使用 GPT-4 模拟为解释而激活的神经元会做什么。

e7f7708a-ef0f-11ed-90ce-dac502259ad0.png

漫威漫画的氛围

第 3 步:比较

根据模拟激活与真实激活的匹配程度对解释进行评分

e8209794-ef0f-11ed-90ce-dac502259ad0.png

举例:漫威漫画的氛围

e849ba66-ef0f-11ed-90ce-dac502259ad0.png

举例:漫威漫画的氛围

最终得出比较的分数为:0.34

发现了什么

使用OpenAI自己的评分方法,可以开始衡量技术对网络不同部分的工作情况,并尝试改进目前解释不力的部分的技术。例如,我们的技术对于较大的模型效果不佳,可能是因为后面的层更难解释。

e86d1420-ef0f-11ed-90ce-dac502259ad0.png

正在解释的模型中的参数量

尽管我们的绝大多数解释得分很低,但我们相信我们现在可以使用 ML 技术来进一步提高我们产生解释的能力。例如,我们发现我们可以通过以下方式提高分数:

迭代解释。我们可以通过要求 GPT-4 提出可能的反例,然后根据它们的激活修改解释来提高分数。

使用更大的模型来给出解释。随着解释器模型能力的提高,平均分数也会上升。然而,即使是 GPT-4 也给出了比人类更差的解释,这表明还有改进的余地。

更改已解释模型的架构。具有不同激活函数的训练模型提高了解释分数。

我们正在开源我们的数据集和可视化工具,用于 GPT-4 对 GPT-2 中所有 307,200 个神经元的书面解释,以及使用 OpenAI API 上公开可用的模型[1]进行解释和评分的代码。我们希望研究界能够开发新技术来生成更高分的解释,并开发更好的工具来使用解释来探索 GPT-2。

我们发现超过 1,000 个神经元的解释得分至少为 0.8,这意味着根据 GPT-4,它们解释了神经元的大部分顶级激活行为。大多数这些很好解释的神经元都不是很有趣。然而,也发现了许多 GPT-4 不理解的有趣神经元。希望随着解释的改进,能够快速发现对模型计算的有趣的定性理解。

神经元跨层激活,更高的层更抽象:

e87e391c-ef0f-11ed-90ce-dac502259ad0.png

以Kat举例

展望

我们的方法目前有很多局限性[2],我们希望在未来的工作中能够解决这些问题。

我们专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,无法简洁地描述。例如,神经元可以是高度多义的(代表许多不同的概念),或者可以代表人类不理解或无法用语言表达的单一概念。

我们希望最终自动找到并解释实现复杂行为的整个神经回路,神经元和注意力头一起工作。我们当前的方法仅将神经元行为解释为原始文本输入的函数,而没有说明其下游影响。例如,一个在句号上激活的神经元可以指示下一个单词应该以大写字母开头,或者递增一个句子计数器。

我们解释了神经元的行为,但没有试图解释产生这种行为的机制。这意味着即使是高分解释也可能在分布外的文本上表现很差,因为它们只是描述了相关性。

我们的整个过程是计算密集型的。

我们对我们方法的扩展和推广感到兴奋。最终,我们希望使用模型来形成、测试和迭代完全通用的假设,就像可解释性研究人员所做的那样。

最终,OpenAI希望将最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而,在这些技术能够使不诚实等行为浮出水面之前,我们还有很长的路要走。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经元
    +关注

    关注

    1

    文章

    369

    浏览量

    19115
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11259
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9820

原文标题:OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    构建CNN网络模型并优化的一般化建议

    ,从而得到对我们有价值的识别信息。但这种迭代并不是十分必要的,因为从实践来看,即使只有单层网络的模型,只要拥有充分数量的神经元,也可以获得较高的准确率。不过该种方式的一个重要缺点就是
    发表于 10-28 08:02

    脉冲神经元模型的硬件实现

    息电位 vrest。 LIF神经元模型在生物可解释性上低于其他模型,只体现了神经元计算的关键特性,并不能够解释真实
    发表于 10-24 08:27

    SNN加速器内部神经元数据连接方式

    的数量级,而且生物轴突的延迟和神经元的时间常数比数字电路的传播和转换延迟要大得多,AER 的工作方式和神经网络的特点相吻合,所以受生物启发的神经形态处理器的NoC或SNN加速器通常使
    发表于 10-24 07:34

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    。是实现类脑芯片的基本模型。SNN神经元通过短的电脉冲相互沟通,脉冲之间的时间间隔起着重要作用。 最有利于硬件实现的脉冲神经元模型是“漏电整合-激发”
    发表于 09-17 16:43

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    Neuton 可以自动处理所有这些问题。Neuton 不会从一开始就静态定义网络参数,而是自动生成网络,并检查每一个新神经元是否能提高模型性能。不增加价值的神经元会被立即移除,以节省
    发表于 08-31 20:54

    无刷直流电机单神经元自适应智能控制系统

    常规PID,大大提高了系统的跟随,能满足BLDCM系统对实时的要求。 纯分享帖,点击下方附件免费获取完整资料~~~ *附件:无刷直流电机单神经元自适应智能控制系统.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所
    发表于 06-26 13:36

    无刷直流电机单神经元PI控制器的设计

    摘要:研究了一种基于专家系统的单神经元PI控制器,并将其应用于无刷直流电机调速系统。控制器实现了PI参数的在线调整,在具有PID控制器良好动态性能的同时,减少微分项对系统稳态运行时的影响,并较好
    发表于 06-26 13:34

    小白学大模型:训练大语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究,科学家们为了深入了解如何高效地训练大型
    的头像 发表于 03-03 11:51 1225次阅读
    小白学大<b class='flag-5'>模型</b>:训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    模型领域常用名词解释(近100个)

    本文总结了大模型领域常用的近100个名词解释,并按照模型架构与基础概念,训练方法与技术,模型优化与压缩,推理与应用,计算与性能优化,数据与标签,模型
    的头像 发表于 02-19 11:49 1301次阅读
    大<b class='flag-5'>模型</b>领域常用名词<b class='flag-5'>解释</b>(近100个)

    语言模型的解码策略与关键优化总结

    本文系统性地阐述了大型语言模型(LargeLanguageModels,LLMs)的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面
    的头像 发表于 02-18 12:00 1093次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与关键优化总结

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3306次阅读
    一文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    腾讯公布大语言模型训练新专利

    近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型训练领域取得了新的
    的头像 发表于 02-10 09:37 738次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 578次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    的平衡,解释得清清楚楚,让我这个非专业人士也能明白大模型在实际应用面临的挑战和限制,也对这些模型的复杂和挑战有了更深的理解。 而且,书
    发表于 12-20 15:46

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大语言
    的头像 发表于 12-19 11:29 1233次阅读