全面解析大语言模型（LLM）-电子发烧友网

作者：野风

本文是自己在学习LLM时，阅读《A Survey of Large Language Models》和其他相关材料时的笔记，力求对构建LLM涉及的主要环节有一个大颗粒度的全景感知，一些比较关键或者感兴趣的话题会附上一些推荐阅读的博客。希望能根据这篇博客，读者也能按图索骥式的去学习LLM。

LLM涌现出的3大能力

In-context learning：在GPT-3中正式被提出。在不需要重新训练的情况下，通过自然语言指令，并带几个期望输出的样例，LLM就能够学习到这种输入输出关系，新的指令输入后，就能输出期望的输出。

Instruction following：通过在多种任务数据集上进行指令微调（instruction tuning），LLM可以在没有见过的任务上，通过指令的形式表现良好，因此具有较好的泛化能力。

Step-by-step reasoning：通过思维链（chain-of-thought）提示策略，即把大任务分解成一步一步小任务，让模型think step by step得到最终答案。

LLM的关键技术

Scaling：更多的模型参数、数据量和训练计算，可以有效提升模型效果。

Training：分布式训练策略及一些提升训练稳定性和效果的优化trick。另外还有GPT-4也提出去建立一些特殊的工程设施通过小模型的表现去预测大模型的表现（predictable scaling）。

Ability eliciting：能力引导。设计合适的任务指令或具体的上下文学习策略可以激发LLM在庞大预料上学习到的能力。

Alignment tuning：对齐微调。为了避免模型输出一些不安全或者不符合人类正向价值观的回复，InstructGPT利用RLHF（reinforcement learning with human feedback）技术实现这一目的。

Tools manipulation：工具操作。为了弥补模型不擅长非文本输出任务和实时信息缺失的问题，让模型可以使用计算器、搜索引擎或者给模型安装插件等工具

OpenAI GPT系列模型发展历程

推荐阅读：

数据集

分为六类：Books, CommonCrawl, Reddit links, Wikipedia, Code, and others.

推荐阅读：

模型架构

基于Transformer架构的LLM可以分为3类：

目前大部分模型都是基于Causal Decoder，但为什么比其他架构好，缺乏理论支撑。Long Context目前是基于Transformer结果模型的一大缺点，受限于较长时间和内存的资源需求。LLM能编码Long Context的能力称为extrapolation capability。

推荐阅读：

RLHF实践：比较详细的讲了强化学习微调阶段的原理和踩的坑，具有实践指导意义 https://zhuanlan.zhihu.com/p/635569455

从零实现LLM-RLHF https://zhuanlan.zhihu.com/p/649665766

基于 LoRA 的 RLHF：可以自己跟着动手玩一玩的教程 https://zhuanlan.zhihu.com/p/644900128

反思RLHF，如何更加高效训练有偏好的LLM

如何有效进行RLHF的数据标注？：对数据标注过程有一个非常有指导意义的介绍

Parameter-Efficient Model Adaptation

LLM参数量很大，想要去做全量参数的fine turning代价很大，所以需要一些高效经济的方法。

一些PEFT（Parameter-Efficient Fine-Tuning）方法

Adapter Tuning

Prefix Tuning

Prompt Tuning

Low-Rank Adapation(LoRA)

推荐阅读：

【万字长文】LLaMA, ChatGLM, BLOOM的参数高效微调实践 https://zhuanlan.zhihu.com/p/635710004

大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/636362246

让天下没有难Tuning的大模型-PEFT技术简介 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/618894319

Memory-Efficient Model Adaptation

由于LLM的参数量巨大，在推理的时候非常占用内存，导致其很难在应用中部署，所以需要一些减少内存占用的方法，比如LLM中的量化压缩技术

quantization-aware training (QAT)，需要额外的全模型重训练

Efficient fine-tuning enhanced quantization，QLoRA

Quantization-aware training (QAT) for LLMs

post-training quantization (PTQ)，不需要重训练

Mixed-precision decomposition

Fine-grained quantization

Balancing the quantization difficulty

Layerwise quantization

LLM由于参数量巨大，更适合PTQ。另外，LLM 呈现出截然不同的激活模式（即较大的离群特征），因此量化 LLM（尤其是隐层激活）变得更加困难。

一些经验

INT8 权重量化通常可以在 LLM 上产生非常好的结果，而较低精度权重量化的性能则取决于特定的方法

激活函数比权重更难量化

Efficient fine-tuning enhanced quantization是提升量化LLM一个较好的方法

开源量化库：

Bitsandbytes

GPTQ-for-LLaMA

AutoGPTQ

llama.cpp

利用

In-Context Learning

In-Context Learning（ICL）的prompt由任务描述和若干个QA示例（demonstration）组成，LLM可以识别这些内容并理解，无需进行梯度更新（区别于instruction tuning）就能在新的问题（Q）上进行回答（A）。

样例的设计

Demonstration Selection

Heuristic approaches：一些研究采用基于 k-NN 的检索器来选择与query语义相关的示例。也会同时考虑相关性和多样性

LLM-based approaches：利用 LLM，根据添加样例后的性能增益，直接测量每个样例的信息量。先根据无监督的方法（如BM25）召回一些相似的样例，然后使用一个dense retriever（由LLM打标的正负样本）去查找。

Demonstration Format

最直接的方法就是给一些QA样例对

使用CoT，增加对任务的描述去增强推理能力

Auto-CoT, 通过"Let's think step by step"，得到子问题

Demonstration Order LLMs有时倾向于去重复最后一个样例的答案

通过query与样例之间的embedding space的相似度排序

最大限度地减少压缩和传输任务标签所需的代码长度，其灵感来自信息论

底层机制

How Pre-Training Affects ICL?：

GPT-3中发现在大规模的预训练模型中会出现ICL，但后面也有研究发现，小规模模型在特定设计的训练任务上继续预训练或者微调后也能出现ICL能力。

另外，ICL的出现可以理论上看做是预训练过程中，模型在学习具有长距离语义联系的文档过程中诞生的。

也有研究认为，在扩大训练参数和数据的时候，LLM通过“下一个词预测”训练任务，模型可以从字或词如何组成具有语言含义的句子学习过程中得到ICL能力。

How LLMs Perform ICL?

Task recognition：有研究认为在预训练数据中包含了标识任务（task）的隐变量，而LLM可以根据demonstration捕捉到这些变量，从而能够识别ICL中的任务。所以，有部分研究认为LLM不是从demonstration中学习，而是识别任务，所以有实验表明即使prompt template是无关的甚至是有误导的，LLM表现也很好

Task learning：ICL 可以解释如下：通过前向计算，LLM 生成与demonstration相关的元梯度，并通过注意力机制隐式地执行梯度下降。LLM 本质上是在预训练过程中通过参数对隐式模型进行编码。利用 ICL 中提供的示例，LLM 可以实施梯度下降等学习算法，或直接计算闭式解，以便在前向计算中更新这些模型。

Chain-of-Thought Prompting

CoT 并非像 ICL 那样简单地用输入-输出对来构建提示，而是将可能导致最终输出的中间推理步骤纳入提示中。

In-context Learning with CoT

Few-shot CoT：demonstration由〈input, output〉 变成 〈input, CoT, output〉，区别见上图。

使用不同类型的CoT（不同的推理路径）和使用复杂的CoT都可以加强效果。

为了减少手工提供CoT，可以使用Auto-CoT。

self-consistency技巧：首先生成几条推理路径，然后对所有答案进行综合（例如，通过在这些路径中投票选出最一致的答案），可以较大提升CoT效果。

Zero-shot CoT：LLM 首先在 "Let’s think step by step"的提示下产生推理步骤，然后在 "Therefore, the answer is "的提示下得出最终答案。

底层机制

When CoT works for LLMs?：在需要做一步一步推理的任务中（算术推理、常识推理和符号推理），CoT会表现不错，但那些如果不需要复杂推理的任务，加了CoT反而会不好

Why LLMs Can Perform CoT Reasoning?：广泛认为CoT能力来自于在代码数据上训练，但目前缺乏消融实验的证明。CoT包含三个元素symbols、patterns和text，后两个对效果影响最大，text帮助LLM生成有用的pattern，pattern帮助LLM理解任务和生成帮助解决任务的text

Planning for Complex Task Solving

对于一些复杂的问题，仅用ICL和CoT还是很难取到好的效果，所以采用prompt-based planning的方法去将复杂问题分解为更简单的子问题，并通过规划一系列action去完成这些子问题任务。

那这个plan具体是什么呢？它可以是一系列用自然语言描述的action或者用编程语言描述的可执行代码等

Plan Generation

text-based：通过指令利用LLM去生成执行计划，比如利用ICL的、让LLM在“使用API解决问题”的语料上微调，从而让模型可以调用API、HuggingGPT还让LLM可以调用模型

code-based：生成Python、PDDL等可执行的代码

Feedback Acquisition

internal feedback：使用LLM去预测生成的plan取得成功的概率、Tree of Thought去对比不同的plan（有点类似AlphaGo的蒙特卡诺搜索的意思）、对中间结果进行评估并作为长期记忆存储

external feedback：外部工具或者虚拟世界

Plan Refinement

Reasoning：React通过给LLM一些demonstrations去在feedback的时候生成推理路径、ChatCoT进一步将工具增强推理过程统一为基于LLM的任务规划器与基于工具的环境之间的多轮对话

Backtracking：Tree of Thought利用DFS或者BFS去搜索，使得plan全局最优；另外还可以把feedback作为prompt去利用LLM refine plan

Memorization：将feedback和一些success plan作为长期记忆存储在向量数据库中

实际上这块又引出了一个热度很高的话题——LLM Powered Autonomous Agents，我觉得这是一个可能颠覆整个软件行业，甚至整个社会数字化生产力形态的话题，后面再好好介绍一下吧。

能力评估

基础能力评估

Language Generation

Language Modeling：即根据前序tokens预测下一个token的能力，常用数据集有Penn Treebank、WikiText-103、和 Pile。在zero-shot的设定下，通过困惑度（perplexity）作为指标去评估。对于长依赖能力的评估，可以使用LAMBADA数据集

Conditional Text Generation：具体任务下的文本生成，比如机器翻译、文本摘要、问答、更难的结构化数据生成、长文本生成等。常用指标有Accuracy、BLEU和Rouge，以及人工评价、利用LLM去评价

Code Synthesis：通过运行代码测试pass rate，APPS、HumanEval、MBPP

主要问题：

Unreliable generation evaluation：LLM能生成与人类相当的质量的文本，基于现有的一些自动评价指标会低估这些文本质量。目前另一种方法是利用LLM去做评价，对单个文本进行评价和对多个候选文本进行比较来改进现有评价指标

Underperforming Specialized Generation：LLM 可能无法胜任需要特定领域知识或生成结构化数据的生成任务。在保持 LLM 原有能力的同时，为 LLM 注入专业知识并非易事。

Knowledge Utilization

问答（question answering）和知识补全（knowledge completion）两个任务常被用来检验这个能力

Closed-Book QA：测试LLM根据给定的上下文信息回答而不使用外部数据，常使用accuracy作为评价指标，实验表明更大的参数量或者数据量，都能提升该任务效果

Open-Book QA：可以利用外部资源来回答问题，常用accuracy和F1作为评价指标。为了使用外部数据，一般会用一个text retriever（独立于LLM或者和LLM一起训练）去选择外部数据，甚至可以直接是利用搜索引擎。外部数据能提升回答效果，并且可以最新的数据，去回答time-sensitive问题。

Knowledge Completion：这个任务可以去评价一个LLM从预训练数据中学到了什么和学到了多少知识。一般有知识图谱补全任务和事实补全任务。目前对于特定领域的知识补全，LLM表现的不好。

推荐阅读：

Retrieval-based LMs https://zhuanlan.zhihu.com/p/649820484

主要问题：

Hallucination：产生的信息要么与现有信息源相冲突（内在幻觉），要么无法得到现有信息源的验证（外在幻觉），这在实际使用中影响较大。一般会通过在高质量数据和人工反馈上进行对齐微调，另外通过整合外部信息源提供可信的信息也有助于减少幻觉

Knowledge recency：LLM 的参数知识很难及时更新。用外部知识源，比如搜索引擎，把搜索结果作为context去增强 LLM 是解决这一问题的实用方法。然而，如何有效更新 LLM 内部的知识仍是一个有待解决的研究课题。

推荐阅读：

大模型的幻觉问题调研: LLM Hallucination Survey https://zhuanlan.zhihu.com/p/642648601

Complex Reasoning

复杂推理是指理解并利用辅助证据或逻辑推理得出结论或做出决定的能力

Knowledge Reasoning：一般使用LLM的CoT能力去触发step by step推理能力。LLM容易生成一些错误的中间步骤，导致最终的错误结果，有研究使用特殊的解码和集成策略去解决这个问题

Symbolic Reasoning：知识推理任务依靠逻辑关系和事实知识证据来回答给定问题

Mathematical Reasoning：数学推理任务需要综合运用数学知识、逻辑和计算来解决问题或生成证明陈述。

主要问题：

Reasoning inconsistency：LLM 可能会在无效的推理路径后生成正确的答案，或者在正确的推理过程后生成错误的答案，从而导致得出的答案与推理过程不一致。要解决这个问题，可以利用过程级反馈对 LLM 进行微调，使用多种推理路径组合，并通过自我反思或外部反馈完善推理过程。

Numerical computation：LLM 在数字计算方面面临困难，尤其是在前期训练中很少遇到的符号。除了使用外部数学工具外，将数字标记化为单个标记也是提高 LLM 算术能力的有效设计选择。

高级能力评估

Human Alignment

对齐人类价值一般会从helpfulness、honesty、safety和harmlessness角度去评估，通过alignment tuning和高质量的预训练数据，可以提高这方面的能力

Interaction with External Environment

一般会在虚拟环境中进行测试评估，通过对生成的action plans进行可执行性和正确性评估以及在现实环境中实验的成功率去评价该能力。最近也有一些研究在虚拟环境做基于LLM的多智能体协作的工作。

Tool Manipulation

将工具使用API封装给LLM调用、ChatGPT的插件等都是工具的形式，验证LLM工作操作的能力一般会使用一些推理任务去评估。随着工具的增多，LLM有限的context导致其无法很好的利用这些工具反馈的信息，现在的做法是将这些信息存储为embedding使用

基准和经验性评估

Comprehensive Evaluation Benchmarks

MMLU

BIG-bench、BIG-bench-Lite、BIG-bench hard

HELM

Human-level test benchmarks：AGIEval、MMCU、M3KE、C-Eval、Xiezhi

Empirical Ability Evaluation
论文作者通过在闭源大模型（ChatGPT, Claude, Davinci003 and Davinci002）和开源大模型（LLaMA 7B、Pythia 7B和12B、Falcon 7B，经过instruction-tuned的Vicuna 7B、Alpaca 7B、ChatGLM 6B）上做了一些实验评估，得到了一些结论

闭源大模型相比开源大模型，效果更好，尤其是ChatGPT

ChatGPT 和 Davinci003 在与环境互动和工具操作任务方面表现更佳

所有模型在难度很大的推理任务中都表现不佳

instruction-tuned model效果要优于base model

这些小型开源模型在数学推理、与环境互动和工具操作任务方面表现不佳

在Human Alignment任务上，开源模型的表现方差较大

作为最新发布的型号，Falcon-7B 性能不俗，尤其是在语言生成任务方面

推荐阅读：

LLM Evaluation 如何评估一个大模型？ https://zhuanlan.zhihu.com/p/644373658

A Survey on Evaluation of Large Language Models https://github.com/MLGroupJLU/LLM-eval-survey

一些Leaderboard

MMLU

Chatbot Arena

BIG-bench

Open LLM Leaderboard

SuperCLUE

C-Eval

GaoKao-Bench

AlpacaEval

OpenCompass

Prompt设计指南

原则：

① 清楚地表达任务目标；

② 分解成简单、详细的子任务；

③ 提供少量演示；

④ 使用模型友好格式

任务描述

描述越细节越好；

告诉LLM自己是某方面的专家；

告诉LLM更多应该做什么而不是不应该做什么；如果不希望太长的输出，可以使用“Question: Short Answer: ”或者"in a or a few words”, “in one of two sentences”.

输入数据

对于要求提供事实性知识的问题，可以先通过搜索引擎检索相关文档，然后将其串联到提示语中作为参考；

为了突出提示中的某些重要部分，请使用特殊标记，如引号（""）和换行符（）。您也可以同时使用这两种符号来强调

上下文信息

对于复杂的任务，可以清楚地描述完成任务所需的中间步骤，例如：Please answer the question step by step as: Step 1 - Decompose the question into several sub-questions, · · ·

如果您想让 LLM 为文本打分，则有必要详细说明评分标准，并提供示例作为参考

当 LLM 根据上下文生成文本时（例如，根据购买历史记录进行推荐），向它们解释根据上下文生成的结果有助于提高生成文本的质量。

示例（Demonstration）：

格式良好的上下文示例对指导 LLM 非常有用，尤其是在制作格式复杂的输出时。

在进行few-shot CoT提示时，也可以使用 "Let’s think step-by-step "的提示语，而且少量示例之间应该用" "分隔，而不是句号。

检索与上下文相似的示例去补充LLM任务相关的领域知识，为了获取更多的示例，可以先搜索问题的答案，然后再把问题和答案拼在一起去检索

提示中语境范例的多样性也很有用。如果不容易获得多样化的问题，也可以设法保持问题解决方案的多样性。

在使用chat-based LLM时，可以将示例分解为多轮对话形式

复杂且详细的示例可以帮助LLM回答复杂问题

由于一个符号序列通常可分为多个片段（如 i1、i2、i3 -→ i1、i2 和 i2、i3），因此前面的片段可作为上下文中的范例，引导 LLM 预测后面的片段，同时提供历史信息。

上下文中的示例和提示组件的顺序很重要。对于很长的输入数据，问题的位置（第一个或最后一个）也会影响性能。

如果无法从现有数据集中获取上下文示例，另一种方法是使用 LLM 本身生成的zero-shot示例

其他设计

让LLM在输出的时候检测内容是否正确。如Check whether the above solution is correct or not.

如果LLM不能很好的解决问题，可以让LLM使用外部API工具，如function calling能力

提示语应自成一体，最好不要在上下文中使用代词（如 it 和 they）。

在使用 LLM 比较两个或多个示例时，顺序对性能影响很大。

在提示之前，为 LLM 分配一个角色非常有用，可以帮助它更好地完成以下任务指令

与其他语言相比，OpenAI 模型可以更好地用英语执行任务。因此，首先将输入内容翻译成英语，然后将其输入 LLM 是非常有用的。

对于多选题，限制 LLM 的输出空间是非常有用的。您可以使用更详细的解释，也可以只对对数施加限制。

对于基于排序的任务（如推荐），我们可以为未排序的项目分配指标（如 ABCD），并指示 LLM 直接输出排序后的指标，而不是在排序后直接输出每个项目的完整文本

审核编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

GPT

GPT

+关注

关注
0

文章
368

浏览量
16713
OpenAI

OpenAI

+关注

关注
9

文章
1238

浏览量
9814
大模型

大模型

+关注

关注
2

文章
3440

浏览量
4967
LLM

LLM

+关注

关注
1

文章
340

浏览量
1257

原文标题：万字长文入门大语言模型（LLM）

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

搜索历史

全面解析大语言模型（LLM）

评论