0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

2025年Next Token Prediction范式会统一多模态吗

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2025-01-21 10:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

训练方法与推理策略

性能评测体系

现存挑战与未来方向

综述的完整目录如下:

26da8d0c-d62a-11ef-9310-92fbcf53809c.png

26f099ee-d62a-11ef-9310-92fbcf53809c.png

多模态的 Tokenization

我们认为多模态的 Tokenization 是 MMNTP 的基石和最重要的部分,它将各种模态的信息(如图像、视频和音频片段)分解为最小的单元序列(Token),以便 Transformer 结构为基础的 NTP 模型学习。

Tokenization 方法可以分为离散(Discrete Tokenization)和连续(Continuous Tokenization)两种。离散标记化通过量化将原始信息映射到有限的离散空间,而连续标记化则不涉及量化,保留了数据的连续性质。下面的图给出了两种方式的示意图。

26f802c4-d62a-11ef-9310-92fbcf53809c.png

2.1 Tokenizer 训练方法

270f619e-d62a-11ef-9310-92fbcf53809c.png

本节针对图片,视频,音频领域的 Tokenization 训练方法进行了详细的梳理和比较。首先总结了几种常见的训练方法,例如对比学习,自编码器等,以及这些方法在不同模态上的应用与针对不同模态特点的改进,并按照不同的训练方法归纳整理了不同类型的 Tokenizers,如下表所示:

271f3fb0-d62a-11ef-9310-92fbcf53809c.png

我们以表示能力(representation)和重建能力(reconstruction)为基点,重点讨论了 Tokenizers 在训练时存在的挑战,例如离散型编码器存在的编码表塌陷,信息损失的问题以及一些改进措施例如 FSQ,LFQ 等方案,以及以 CLIP 为代表的连续型编码器中主要存在的语义对齐,编码效率,以及对于不同模态的数据,大家提出了哪些针对性的改进措施。

27319034-d62a-11ef-9310-92fbcf53809c.png

MMNTP 模型

273e03b4-d62a-11ef-9310-92fbcf53809c.png

MMNTP 模型一般结构如上图所示,它主要由骨干模型(一般是一个 Transformer 模型),以及不同模态的 Tokenizer 与 De-Tokenizer 组成。Tokenizer将不同模态的信息转换为 Token 序列,De-Tokenizer 则将 Token 序列转换为原始模态的信息。

274fd1a2-d62a-11ef-9310-92fbcf53809c.png

如上图所示,我们将 MMNTP 模型进一步分为两类,组合式(Compositional)和统一(Unified)式。组合模型依赖于强大的外部编码器例如 CLIP 和解码器例如 SD3 来理解和生成多模态信息,而统一模型则使用轻量级的编码器和解码器例如 VQVAE,将大部分理解和生成任务交给骨干模型。本文对这两种模型结构进行了详细讨论,并比较了它们的优缺点。

2761d1b8-d62a-11ef-9310-92fbcf53809c.png

对于不同的多模态任务来说,MMNTP 模型可以以一种统一的方式处理不同任务,区别之处在于不同任务的输入输出不同。上图以图片模态为例子,列出来了同一个 MMNTP 模型结构如何进行图片理解例如 VQA,图片生成,以及基于文字指令的图片编辑任务。

只需要替换输入输出的组合形式,同一个模型架构就可以完成不同的任务,这体现了 MMNTP 模型在多模态任务上的统一性。本文针对图片,视频,音频模态的 MMNTP 模型进行了详细的讨论,并根据结构类型进行了梳理,如下表所示。

277a2f42-d62a-11ef-9310-92fbcf53809c.png

278ed762-d62a-11ef-9310-92fbcf53809c.png

训练范式

4.1 训练任务的类型

27a5037a-d62a-11ef-9310-92fbcf53809c.png

一旦将不同模态的内容转化为序列化的标 Tokens,就可以使用统一的骨 MMNTP 模型来训练,以解决各种理解和生成任务。

本文将训练任务按照生成的 Token 类型不同分为两类,离散 Token 预测和连续 Token 预测。二者的区别在于预测的 token 是离散的还是连续的,这会对应不同的训练任务,以及特殊的输出头的结构。

例如多模态理解任务往往以语言作为输出,则需要使用语言模型头作为输出头,进行离散 Token 预测。如果将 Diffusion 模型和 NTP 模型结合,则需要使用 Diffusion 模型头作为输出头,进行连续 Token 预测。

4.2 训练阶段

27bbc092-d62a-11ef-9310-92fbcf53809c.png

和语言模型类似,MMNTP 模型的训练也可以分为三个阶段,如上图所示,分别是模态对齐预训练,指令微调和偏好学习。

这里的预训练阶段,通常指的是在多模态数据-文本对数据上进行预训练,以将不同模态的信息对齐到语言空间。指令微调阶段是针对不同的下游任务,例如理解和生成类任务,用标注好的数据进行训练。偏好学习在 MMNTP 模型中的研究刚刚起步,主要将模型的输出和人类的偏好进行对齐。

本文详细这三个阶段的相关研究工作,并根据任务类型进行了归纳整理。

4.3 测试时的Prompt工程

27cd65d6-d62a-11ef-9310-92fbcf53809c.png

Prompt 工程是提升 LLM 模型效果的重要手段,在 MMNTP 模型中,借助了 LLM 继基座模型的能力,Prompt 工程同样重要。本文对 MMNTP 模型中的 Prompt 工程进行了详细的讨论,如上图所示,分为多模态的上下文学习(Multimodal In-Context Learning)和多模态思维链(Multimodal Chain-of-Thought)两种方法。

27e42294-d62a-11ef-9310-92fbcf53809c.png

如上图所示,多模态的上下文学习指的是在输入中加入多模态任务的例子,以帮助模型更好地理解任务。多模态思维链则是指在输入中加入一些思维链的提示,例如“感知”,“推理过程”等,以促使模型更好地进行多模态推理。我们将这些方法进行整理,如下表所示。

27fc1124-d62a-11ef-9310-92fbcf53809c.png

2815b69c-d62a-11ef-9310-92fbcf53809c.png

训练数据集与性能评测

281c0042-d62a-11ef-9310-92fbcf53809c.png

在综述中,我们还对 MMNTP 模型的训练数据集进行了详细的讨论,包括数据集的构建,数据集的规模,以及数据集的多样性。同时,我们也比较了 NTP 模型和非 NTP 模型在多模态任务上的表现,如上图所示,在大规模理解任务例如 VQAv2,MMMU上,NTP 模型表现全面优于非 NTP 模型。

在生成任务评测数据例如 Imagenet,GenEval,我们观察到 NTP 模型在和纯 Diffusion 取得了不相上下的效果,甚至在某些任务上表现更好,这展示了 NTP 模型在统一不同多模态任务上的潜力。

2836d354-d62a-11ef-9310-92fbcf53809c.png

存在的挑战

本文提出了四个目前尚未解决的挑战,主要源于 MMNTP 训练范式。这些挑战包括:

如何更好地利用无监督的多模态数据来扩展 MMNTP 模型

克服多模态干扰并增强协同作用

提高 MMNTP 模型的训练和推理效率

将 MMNTP 作为更广阔任务的通用接口。

这些挑战的解决对于 MMNTP 范式实现多模态智能的发展至关重要。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4009

    浏览量

    143313
  • NTP
    NTP
    +关注

    关注

    1

    文章

    265

    浏览量

    15080

原文标题:2025年Next Token Prediction范式会统一多模态吗?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模元(Token)工厂能源供应系统重构与SiC功率半导体赋能

    (Physical AI)以及智能体(Agentic AI)的爆发式增长,全球计算基础设施正在经历场深刻的物理与经济学范式跃迁。在2026的GTC大会上,业界正式确立了从“传统数据中心”向“模元(
    的头像 发表于 03-21 19:21 358次阅读
    模元(<b class='flag-5'>Token</b>)工厂能源供应系统重构与SiC功率半导体赋能

    格灵深瞳2025度关键词回顾

    过去一年,格灵深瞳深耕视觉算法与模态大模型,自研视觉基础模型Glint-MVT系列持续升级:MVT v1.5提升局部和文字特征表达能力,收获国际顶级学术会议ICCV 2025的Hig
    的头像 发表于 02-24 17:17 1421次阅读

    榜样领航,共赴新章——2025度电子发烧友社区表彰

    2025,电子发烧友以创新为锚,汇聚超690万+行业先锋与技术追梦人,在嵌入式、AI、机器人 等前沿赛道,共赴场技术探索与生态共建的澎湃征程。 这一年,平台内容生态实现质效双升:累
    发表于 01-12 15:21

    商汤科技日日新V6.5荣获2025模态大模型全国第

    近日,权威大模型评测基准 SuperCLUE 发布《中文模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6.5 Pro)以75.35的总分位列国内第,斩获金牌,并在视觉推理维度上拿下国内最高分
    的头像 发表于 01-06 14:44 910次阅读
    商汤科技日日新V6.5荣获<b class='flag-5'>2025</b><b class='flag-5'>年</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型全国第<b class='flag-5'>一</b>

    亚马逊云科技上线Amazon Nova模态嵌入模型

    专为Agentic RAG与语义搜索量身打造,以行业顶尖的准确率实现跨模态检索 北京202510月29日 /美通社/ -- 亚马逊云科技宣布,Amazon Nova Multimodal
    的头像 发表于 10-29 17:15 359次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    模态与智能体:学术界与产业界共话边缘智能新未来-2025安凯微电子开发者技术论

    202510月24日,在“2025安凯微电子开发者技术论坛”(ADF 2025)期间,多位学术界专家与产业界行业资深人士齐聚H大厦多功能厅,围绕“从多媒体到
    的头像 发表于 10-29 10:15 3653次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>与智能体:学术界与产业界共话边缘智能新未来-<b class='flag-5'>2025</b>安凯微电子开发者技术论

    2025安凯微电子开发者技术论坛成功举办——发布多款芯片,探索模态与智能体落地

    Forum 2025,简称 “ADF 2025”)。 本次论坛以 “从多媒体到模态,从智能硬件到智能体” 为主题,汇聚了学界专家、产业链上下游核心合作伙伴以及深耕智能硬件与边缘计算
    的头像 发表于 10-27 11:54 726次阅读
    <b class='flag-5'>2025</b>安凯微电子开发者技术论坛成功举办——发布多款芯片,探索<b class='flag-5'>多</b><b class='flag-5'>模态</b>与智能体落地

    2025大华股份SMB秋季新品发布盛大启幕

    10月18日,以“新场景 新业务 新模态”为主题的2025 大华股份SMB秋季新品发布盛大启幕。会上,多款精准匹配区县市场需求的新品及核心系统解决方案集中亮相,不仅为金秋市场注入强
    的头像 发表于 10-21 17:21 1954次阅读

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    渗透到智能家居、工业质检、穿戴设备等千万级场景中。RK3576 的模态交互对话方案,其价值远不止 “实现了项技术”,更在于提供了套 “算力适配 - 工程封装 - 二次拓展” 的端
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器
    的头像 发表于 09-05 13:49 2726次阅读

    2025土耳其伊斯坦布尔线材线缆展览wire Eurasia 2025

    、展会信息 展会名称:2025土耳其伊斯坦布尔线材线缆展览 wire Eurasia 2025 展会时间:
    发表于 08-15 10:23

    “端云+模态”新范式:《移远通信AI大模型技术方案白皮书》正式发布

    7月28日,移远通信联合智次方研究院正式发布《AI大模型技术方案白皮书》(以下简称“白皮书”)。这份白皮书系统梳理了AI大模型的技术特点、产业发展态势与多元应用场景,以及移远通信“端云+模态”AI
    的头像 发表于 07-28 13:08 1389次阅读
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模态</b>”新<b class='flag-5'>范式</b>:《移远通信AI大模型技术方案白皮书》正式发布

    润和软件荣登2025模态AI大模型排行榜单

    近日,《互联网周刊》联合eNET研究院、德本咨询、中国社会科学院信息化研究中心共同发布了“2025模态AI大模型”榜单。江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的“润知”知识处理
    的头像 发表于 06-25 14:37 1806次阅读

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    的大模型。 可信AI模态大模型评估20251月启动,由中国信通院人工智能研究所牵头,依据由业界60余家单位共同编制的《
    的头像 发表于 06-11 11:57 1553次阅读

    智驾革命再升级!2025上海车展解码生成式AI重构汽车产业新范式

    上海20255月12日 /美通社/ -- 在2025上海国际车展上,生成式人工智能与模态大模型成为技术焦点,从智能座舱的拟人化交互到自动
    的头像 发表于 05-12 17:32 652次阅读
    智驾革命再升级!<b class='flag-5'>2025</b>上海车展解码生成式AI重构汽车产业新<b class='flag-5'>范式</b>