0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-12 11:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大家好,我是zenRRan。

OpenAI在昨天发布了一篇论文:《Language models can explain neurons in language models》,可谓是深度学习可解释性又向前迈了一大步!谁又能想到,使用GPT-4来解释模型的可解释性,用魔法打败魔法,666。

e77cb674-ef0f-11ed-90ce-dac502259ad0.png

大致内容

使用 GPT-4 自动编写大型语言模型中神经元行为的解释,并对这些解释进行打分,并为 GPT-2 中的每个神经元发布了这些(不完美的)解释和分数的数据集。

介绍一下

语言模型变得更强大,部署更广泛,但我们对它们内部工作原理的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是进行胡编乱造。可解释性研究旨在通过查看模型内部来发现更多信息。

可解释性研究的一种简单方法是首先了解各个组件(神经元和注意力头)在做什么。传统上,这需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程不能很好地扩展:很难将它应用于具有数百或数千亿个参数的神经网络。OpenAI提出了一个自动化过程,该过程使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元。

这项工作是对齐研究方法的第三个支柱的一部分:希望使对齐研究工作本身自动化。这种方法的一个有前途的方面是它可以随着人工智能发展的步伐而扩展。随着未来的模型作为助手变得越来越智能和有用,我们会找到更好的解释。

具体如何工作的呢

他们的方法包括在每个神经元上运行 3 个步骤。

第 1 步:使用 GPT-4 生成解释

给定一个 GPT-2 神经元,通过向 GPT-4 显示相关文本序列和激活来生成对其行为的解释。

OpenAI一共举了12个例子,这里我就随便拿出几个代表性的吧。

e793c9ae-ef0f-11ed-90ce-dac502259ad0.png

漫威漫画的氛围

模型生成的解释:参考自电影、角色和娱乐。

e7bea372-ef0f-11ed-90ce-dac502259ad0.png

similes,相似

模型生成的解释:比较和类比,常用“喜欢(like)”这个词。

e7d9db4c-ef0f-11ed-90ce-dac502259ad0.png

shared last names,姓氏

模型生成的解释:姓氏,它们一般跟在名字后面。

第 2 步:使用 GPT-4 进行模拟

再次使用 GPT-4 模拟为解释而激活的神经元会做什么。

e7f7708a-ef0f-11ed-90ce-dac502259ad0.png

漫威漫画的氛围

第 3 步:比较

根据模拟激活与真实激活的匹配程度对解释进行评分

e8209794-ef0f-11ed-90ce-dac502259ad0.png

举例:漫威漫画的氛围

e849ba66-ef0f-11ed-90ce-dac502259ad0.png

举例:漫威漫画的氛围

最终得出比较的分数为:0.34

发现了什么

使用OpenAI自己的评分方法,可以开始衡量技术对网络不同部分的工作情况,并尝试改进目前解释不力的部分的技术。例如,我们的技术对于较大的模型效果不佳,可能是因为后面的层更难解释。

e86d1420-ef0f-11ed-90ce-dac502259ad0.png

正在解释的模型中的参数量

尽管我们的绝大多数解释得分很低,但我们相信我们现在可以使用 ML 技术来进一步提高我们产生解释的能力。例如,我们发现我们可以通过以下方式提高分数:

迭代解释。我们可以通过要求 GPT-4 提出可能的反例,然后根据它们的激活修改解释来提高分数。

使用更大的模型来给出解释。随着解释器模型能力的提高,平均分数也会上升。然而,即使是 GPT-4 也给出了比人类更差的解释,这表明还有改进的余地。

更改已解释模型的架构。具有不同激活函数的训练模型提高了解释分数。

我们正在开源我们的数据集和可视化工具,用于 GPT-4 对 GPT-2 中所有 307,200 个神经元的书面解释,以及使用 OpenAI API 上公开可用的模型[1]进行解释和评分的代码。我们希望研究界能够开发新技术来生成更高分的解释,并开发更好的工具来使用解释来探索 GPT-2。

我们发现超过 1,000 个神经元的解释得分至少为 0.8,这意味着根据 GPT-4,它们解释了神经元的大部分顶级激活行为。大多数这些很好解释的神经元都不是很有趣。然而,也发现了许多 GPT-4 不理解的有趣神经元。希望随着解释的改进,能够快速发现对模型计算的有趣的定性理解。

神经元跨层激活,更高的层更抽象:

e87e391c-ef0f-11ed-90ce-dac502259ad0.png

以Kat举例

展望

我们的方法目前有很多局限性[2],我们希望在未来的工作中能够解决这些问题。

我们专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,无法简洁地描述。例如,神经元可以是高度多义的(代表许多不同的概念),或者可以代表人类不理解或无法用语言表达的单一概念。

我们希望最终自动找到并解释实现复杂行为的整个神经回路,神经元和注意力头一起工作。我们当前的方法仅将神经元行为解释为原始文本输入的函数,而没有说明其下游影响。例如,一个在句号上激活的神经元可以指示下一个单词应该以大写字母开头,或者递增一个句子计数器。

我们解释了神经元的行为,但没有试图解释产生这种行为的机制。这意味着即使是高分解释也可能在分布外的文本上表现很差,因为它们只是描述了相关性。

我们的整个过程是计算密集型的。

我们对我们方法的扩展和推广感到兴奋。最终,我们希望使用模型来形成、测试和迭代完全通用的假设,就像可解释性研究人员所做的那样。

最终,OpenAI希望将最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而,在这些技术能够使不诚实等行为浮出水面之前,我们还有很长的路要走。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经元
    +关注

    关注

    1

    文章

    369

    浏览量

    19195
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11343
  • OpenAI
    +关注

    关注

    9

    文章

    1249

    浏览量

    10279

原文标题:OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大
    的头像 发表于 11-17 16:03 602次阅读
    摩尔线程新一代大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>对齐框架URPO入选AAAI 2026

    构建CNN网络模型并优化的一般化建议

    ,从而得到对我们有价值的识别信息。但这种迭代并不是十分必要的,因为从实践来看,即使只有单层网络的模型,只要拥有充分数量的神经元,也可以获得较高的准确率。不过该种方式的一个重要缺点就是
    发表于 10-28 08:02

    脉冲神经元模型的硬件实现

    息电位 vrest。 LIF神经元模型在生物可解释性上低于其他模型,只体现了神经元计算的关键特性,并不能够解释真实
    发表于 10-24 08:27

    SNN加速器内部神经元数据连接方式

    的数量级,而且生物轴突的延迟和神经元的时间常数比数字电路的传播和转换延迟要大得多,AER 的工作方式和神经网络的特点相吻合,所以受生物启发的神经形态处理器的NoC或SNN加速器通常使
    发表于 10-24 07:34

    在Ubuntu20.04系统训练神经网络模型的一些经验

    , batch_size=512, epochs=20)总结 这个核心算法的卷积神经网络结构和训练过程,是用来对MNIST手写数字图像进行分类的。模型将图像作为输入,通过卷积和池化层提取图像的特征,然后通过全连接层进行分类预
    发表于 10-22 07:03

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    。是实现类脑芯片的基本模型。SNN神经元通过短的电脉冲相互沟通,脉冲之间的时间间隔起着重要作用。 最有利于硬件实现的脉冲神经元模型是“漏电整合-激发”
    发表于 09-17 16:43

    3万字长文!深度解析大语言模型LLM原理

    继续追本溯源,与腾讯学堂合作撰写本文,尝试让人人都能懂大语言模型的基础原理。1、大语言模型简述截止到2025年“大模型”一般泛指“超大参数
    的头像 发表于 09-02 13:34 3615次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    Neuton 可以自动处理所有这些问题。Neuton 不会从一开始就静态定义网络参数,而是自动生成网络,并检查每一个新神经元是否能提高模型性能。不增加价值的神经元会被立即移除,以节省
    发表于 08-31 20:54

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放
    的头像 发表于 08-06 14:25 1147次阅读

    无刷直流电机单神经元自适应智能控制系统

    常规PID,大大提高了系统的跟随,能满足BLDCM系统对实时的要求。 纯分享帖,点击下方附件免费获取完整资料~~~ *附件:无刷直流电机单神经元自适应智能控制系统.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所
    发表于 06-26 13:36

    无刷直流电机单神经元PI控制器的设计

    摘要:研究了一种基于专家系统的单神经元PI控制器,并将其应用于无刷直流电机调速系统。控制器实现了PI参数的在线调整,在具有PID控制器良好动态性能的同时,减少微分项对系统稳态运行时的影响,并较好
    发表于 06-26 13:34

    从FA模型切换到Stage模型时:module的切换说明

    mainAbility。mainElement标签名称变更,Stage模型不在使用“.”符号。 package标识HAP的包结构名称,在应用内保证唯一。/Stage模型使用name来保证应用唯一
    发表于 06-05 08:16

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1449次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    如何借助大语言模型打造人工智能生态系统

    语言模型(LLMs)正以革命的姿态重塑我们与科技的互动模式。然而,由于其庞大的规模,它们往往属于资源密集型范畴,不仅大幅推高了成本,还造成了能源消耗的激增。本文深入剖析了大语言
    的头像 发表于 04-27 09:19 1224次阅读
    如何借助大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>打造人工智能生态系统