0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Transformer的大型语言模型(LLM)的内部机制

CVer 来源:CVer 2023-06-25 15:08 次阅读

本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。

随着大型语言模型(LLM)在使用和部署方面的不断增加,打开黑箱并了解它们的内部工作原理变得越来越重要。更好地理解这些模型是如何做出决策的,这对改进模型和减轻其故障(如幻觉或推理错误)至关重要。 众所周知,最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习能力通常归功于 Transformer 架构,特别是自注意力块的使用,其能够仔细选择输入序列,进而推理出可信的下一个 token。此外,预测可能需要全局知识,如语法规则或一般事实,这些可能不会出现在上下文中,需要存储在模型中。 我们不禁会疑问,为什么基于 Transformer 的模型非常擅长使用它们的上下文来预测新的 token,这种能力是如何在训练中产生的?带着这些问题,来自 Meta AI 的研究者进行了深入的研究。他们通过研究合成设置下 Transformer 的学习机制,揭示了其全局和上下文学习的平衡,并将权重矩阵解释为联想记忆,为理解和优化 Transformer 提供了基础。

论文地址:https://arxiv.org/abs/2306.00802 首先要了解的是在训练过程中 Transformer 是如何发现这些能力的。为此,该研究引入了一个合成数据集,该数据集由二元语言模型生成的序列组成。然后,模型需要依靠上下文学习来对特定的二元序列进行良好的预测,而全局二元可以根据当前 token 的全局统计数据进行猜测。虽然单层的 Transformer 无法可靠地预测上下文二元,但该研究发现通过开发感应头(induction head)机制的双层 Transformer 取得了成功,即拥有两个注意力头的 circuit,其允许 Transformer 从上下文 [・・・, a, b,・・・, a] 中预测 b,并且在 Transformer 语言模型中似乎无处不在。这种感应头(induction head)机制在 Transformer 语言模型中是普遍存在的,并且取得了成功。 更进一步的,为了更好的了解上下文机制是怎样出现在训练过程中的,该研究在随机初始化时冻结了一些层(包括嵌入和值矩阵)来进一步简化模型架构。这样一来研究重点转移到注意力和前馈机制,同时避免了学习表征的困难。与此同时,这种简化还为单个权重矩阵引入了一个自然模型作为联想记忆。自然模型可以通过它们的外积存储输入 - 输出或键 - 值对嵌入。随机高维嵌入由于其接近正交性而特别适合这种观点。 总结而言,该研究的贡献可概括为:

本文引入了一种新的合成设置来研究全局和上下文学习:序列遵循二元语言模型,其中一些二元在序列中变化,而另一些不会。

本文将 Transformer 的权重矩阵视为学习存储特定嵌入对的联想记忆,并以此为任务推导出一个简化但更可解释的模型。

本文对训练动态进行了细致的实证研究:首先学习全局二元,然后以自上而下的方式学习适当的记忆,形成感应头。

本文给出了训练动力学的理论见解,展示了如何通过在噪声输入中找到信号,在种群损失上进行一些自上而下的梯度步骤来恢复所需的联想记忆。

方法介绍 接着该研究介绍了合成数据设置,这样能够仔细研究感应头机制在训练过程中的发展以及 Transformer 如何学习利用上下文信息的。 双元数据模型:模型序列由一个通用的双元语言模型(即马尔可夫链)组成,每个序列的生成方式如下: 7da06c44-11df-11ee-962d-dac502259ad0.png 下图 2 可视化了测试序列上的注意力图,这表明该模型已经学习了感应头机制。 7dc1ac1a-11df-11ee-962d-dac502259ad0.png 接着该研究介绍了 Transformer 联想记忆观点:因为几乎正交的嵌入,权重矩阵表现为联想记忆,将成对的嵌入存储为其外积的加权和。研究引入了一个具有固定随机嵌入的简化 Transformer 模型,将用这种想法产生对学习动力学的精确理解。 此外,该研究提出了一个有用的观点,将 Transformer 中的模型权重视为高维嵌入向量的联想记忆。感应头机制可以通过以下外积矩阵作为记忆来获得,而其他所有权重则固定为随机初始化状态: 7de51452-11df-11ee-962d-dac502259ad0.png实验 图 3 研究了在迭代 300 次之前冻结不同层对训练动态的影响。 7e032e24-11df-11ee-962d-dac502259ad0.png 全局 vs 上下文学习。从图 4(左 / 右)可以看出,当联合训练所有层时,全局二元统计的学习速度往往比感应头更快,这可以从早期迭代中的 loss 和 KL 的快速下降中看出。 此外,从图 4(左)中看到,数据分布的变化会对上下文机制的学习速度产生重大影响。该研究观察到以下情况可能会使上下文学习减慢:(i) 较少数量的触发器 K, (ii) 仅使用少有的固定触发器,以及 (iii) 使用随机触发器而不是固定触发器。 该研究还在图 4(中间)中显示,在训练时将输出 token 分布更改为二元分布会降低准确率,这表明,使用更多样化的训练分布可以产生具有更好泛化准确率的模型,并且只需少量的额外训练成本。 7e336954-11df-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    12

    文章

    3859

    浏览量

    84670
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10051
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5898
  • LLM
    LLM
    +关注

    关注

    0

    文章

    202

    浏览量

    233

原文标题:基于Transformer的大模型是如何运行的?Meta揭秘内部机制!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何计算transformer模型的参数量

    1. 前言 最近,OpenAI推出的ChatGPT展现出了卓越的性能,引发了大规模语言模型(Large Language Model,LLM)的研究热潮。大规模语言
    的头像 发表于 07-10 09:13 7413次阅读
    如何计算<b class='flag-5'>transformer</b><b class='flag-5'>模型</b>的参数量

    NVIDIA 推出大型语言模型云服务以推进 AI 和数字生物学的发展

    NVIDIA NeMo 大型语言模型LLM)服务帮助开发者定制大规模语言模型;NVIDIA B
    发表于 09-21 15:24 459次阅读
    NVIDIA 推出<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>云服务以推进 AI 和数字生物学的发展

    语言模型背后的Transformer,与CNN和RNN有何不同

      电子发烧友网报道(文/李弯弯)近年来,随着大语言模型的不断出圈,Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习
    的头像 发表于 12-25 08:36 1585次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,与CNN和RNN有何不同

    NVIDIA AI平台为大型语言模型带来巨大收益

    随着大型语言模型LLM )的规模和复杂性不断增长, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高达 30% 的训练速度。
    的头像 发表于 10-10 15:39 673次阅读
    NVIDIA AI平台为<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>带来巨大收益

    介绍一种基于Transformer的大语言模型

    模型的研究者和大公司出于不同的动机站位 LLM,研究者出于对 LLM 的突现能力 (emergent ability) 的好奇和对 LLM 对 NLP 领域能力边界的拓展、而大公司可
    的头像 发表于 02-21 18:05 974次阅读

    大型语言模型有哪些用途?

    大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下,可
    的头像 发表于 02-23 19:50 4308次阅读

    大型语言模型有哪些用途?大型语言模型如何运作呢?

    大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。
    的头像 发表于 03-08 13:57 7174次阅读

    一套开源的大型语言模型LLM)—— StableLM

    对于任何没有额外微调和强化学习的预训练大型语言模型来说,用户得到的回应质量可能参差不齐,并且可能包括冒犯性的语言和观点。这有望随着规模、更好的数据、社区反馈和优化而得到改善。
    的头像 发表于 04-24 10:07 2212次阅读
    一套开源的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)—— StableLM

    大型语言模型LLM)的自定义训练:包含代码示例的详细指南

    近年来,像 GPT-4 这样的大型语言模型LLM) 因其在自然语言理解和生成方面的惊人能力而受到广泛关注。但是,要根据特定任务或领域定制
    发表于 06-12 09:35 1890次阅读

    大型语言模型的应用

       大型语言模型LLM) 是一种深度学习算法,可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言
    的头像 发表于 07-05 10:27 1628次阅读

    2023年发布的25个开源大型语言模型总结

    来源: DeepHub IMBA 大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译
    的头像 发表于 07-28 12:20 470次阅读
    2023年发布的25个开源<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>总结

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型LLM)。
    的头像 发表于 08-25 09:06 951次阅读
    Meta发布一款可以使用文本提示生成代码的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>Code Llama

    Medusa如何加速大型语言模型LLM)的生成?

    面对推测性解码的复杂性,研究人员推出了Medusa技术,这个框架回归了Transformer模型的本质,减少了复杂度,增强了效率,让每个生成阶段都能快速产出结果。当将Medusa与基于树的注意机制结合时,生成速度提高了2到3倍。
    发表于 09-20 11:23 489次阅读
    Medusa如何加速<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的生成?

    Long-Context下LLM模型架构全面介绍

    随着ChatGPT的快速发展,基于Transformer大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知
    的头像 发表于 11-27 17:37 557次阅读
    Long-Context下<b class='flag-5'>LLM</b><b class='flag-5'>模型</b>架构全面介绍

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 278次阅读
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的压缩方法