2025年Next Token Prediction范式会统一多模态吗-电子发烧友网

训练方法与推理策略

性能评测体系

现存挑战与未来方向

综述的完整目录如下：

多模态的 Tokenization

我们认为多模态的 Tokenization 是 MMNTP 的基石和最重要的部分，它将各种模态的信息（如图像、视频和音频片段）分解为最小的单元序列（Token），以便 Transformer 结构为基础的 NTP 模型学习。

Tokenization 方法可以分为离散（Discrete Tokenization）和连续（Continuous Tokenization）两种。离散标记化通过量化将原始信息映射到有限的离散空间，而连续标记化则不涉及量化，保留了数据的连续性质。下面的图给出了两种方式的示意图。

2.1 Tokenizer 训练方法

本节针对图片，视频，音频领域的 Tokenization 训练方法进行了详细的梳理和比较。首先总结了几种常见的训练方法，例如对比学习，自编码器等，以及这些方法在不同模态上的应用与针对不同模态特点的改进，并按照不同的训练方法归纳整理了不同类型的 Tokenizers，如下表所示：

我们以表示能力（representation）和重建能力（reconstruction）为基点，重点讨论了 Tokenizers 在训练时存在的挑战，例如离散型编码器存在的编码表塌陷，信息损失的问题以及一些改进措施例如 FSQ，LFQ 等方案，以及以 CLIP 为代表的连续型编码器中主要存在的语义对齐，编码效率，以及对于不同模态的数据，大家提出了哪些针对性的改进措施。

MMNTP 模型

MMNTP 模型一般结构如上图所示，它主要由骨干模型（一般是一个 Transformer 模型），以及不同模态的 Tokenizer 与 De-Tokenizer 组成。Tokenizer将不同模态的信息转换为 Token 序列，De-Tokenizer 则将 Token 序列转换为原始模态的信息。

如上图所示，我们将 MMNTP 模型进一步分为两类，组合式（Compositional）和统一（Unified）式。组合模型依赖于强大的外部编码器例如 CLIP 和解码器例如 SD3 来理解和生成多模态信息，而统一模型则使用轻量级的编码器和解码器例如 VQVAE，将大部分理解和生成任务交给骨干模型。本文对这两种模型结构进行了详细讨论，并比较了它们的优缺点。

对于不同的多模态任务来说，MMNTP 模型可以以一种统一的方式处理不同任务，区别之处在于不同任务的输入输出不同。上图以图片模态为例子，列出来了同一个 MMNTP 模型结构如何进行图片理解例如 VQA，图片生成，以及基于文字指令的图片编辑任务。

只需要替换输入输出的组合形式，同一个模型架构就可以完成不同的任务，这体现了 MMNTP 模型在多模态任务上的统一性。本文针对图片，视频，音频模态的 MMNTP 模型进行了详细的讨论，并根据结构类型进行了梳理，如下表所示。

训练范式

4.1 训练任务的类型

一旦将不同模态的内容转化为序列化的标 Tokens，就可以使用统一的骨 MMNTP 模型来训练，以解决各种理解和生成任务。

本文将训练任务按照生成的 Token 类型不同分为两类，离散 Token 预测和连续 Token 预测。二者的区别在于预测的 token 是离散的还是连续的，这会对应不同的训练任务，以及特殊的输出头的结构。

例如多模态理解任务往往以语言作为输出，则需要使用语言模型头作为输出头，进行离散 Token 预测。如果将 Diffusion 模型和 NTP 模型结合，则需要使用 Diffusion 模型头作为输出头，进行连续 Token 预测。

4.2 训练阶段

和语言模型类似，MMNTP 模型的训练也可以分为三个阶段，如上图所示，分别是模态对齐预训练，指令微调和偏好学习。

这里的预训练阶段，通常指的是在多模态数据-文本对数据上进行预训练，以将不同模态的信息对齐到语言空间。指令微调阶段是针对不同的下游任务，例如理解和生成类任务，用标注好的数据进行训练。偏好学习在 MMNTP 模型中的研究刚刚起步，主要将模型的输出和人类的偏好进行对齐。

本文详细这三个阶段的相关研究工作，并根据任务类型进行了归纳整理。

4.3 测试时的Prompt工程

Prompt 工程是提升 LLM 模型效果的重要手段，在 MMNTP 模型中，借助了 LLM 继基座模型的能力，Prompt 工程同样重要。本文对 MMNTP 模型中的 Prompt 工程进行了详细的讨论，如上图所示，分为多模态的上下文学习（Multimodal In-Context Learning）和多模态思维链（Multimodal Chain-of-Thought）两种方法。