0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技NEO-unify如何打造原生视觉语言理解与生成

商汤科技SenseTime 来源:商汤科技SenseTime 2026-03-10 14:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,商汤科技发布一篇最新技术博客 NEO-unify: 原生架构打造端到端多模态理解与生成统一模型(NEO-unify: Building Native Multimodal Unified Models End to End)

这篇博客深入解读NEO-unify:一项旨在从底层统一多模态理解与生成的端到端原生架构。

当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。

我们能否更进一步,让AI像人一样,直接从最原始的像素和文字中,统一地进行学习、理解与生成?这正是NEO-unify尝试回答的根本问题。它摒弃了传统的VE与VAE,首次构建了一个真正的端到端原生统一模型,在同一个架构内直接处理像素与文本,并在此基础上协同完成理解与生成任务。初步研究成果令人振奋,该设计在保持强大语义理解与细节恢复能力的同时,显著提升了训练与计算效率。

这项技术将如何为生成式AI打开新的想象?让我们一同展开探讨。

《NEO-unify:原生架构打造端到端多模态理解与生成统一模型》

英文博客地址:

https://huggingface.co/blog/sensenova/neo-unify

中文博客地址:

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

当前多模态智能架构困境

长期以来,多模态研究已形成一种默认范式:视觉编码器(Vision Encoder, VE) 负责感知与理解,而变分自编码器(Variational Autoencoder, VAE) 则用于内容生成。近期的一些工作尝试构建共享编码器,但这种折衷往往引入新的结构性设计权衡。

由此回到第一性原理:构建一体化模型直接处理原生输入,即像素本身与文字本身。商汤科技联合南洋理工大学,提出一种全新的架构范式:NEO-unify(preview),一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是:不需要 VE,也不需要 VAE。

我们正扩大规模、持续迭代。更多模型与开源成果,将很快与大家见面。

NEO-unify原生一体化架构新范式

c4562a2c-1923-11f1-90a1-92fbcf53809c.png

NEO-unify 第一次迈向真正的端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。首先,引入近似无损的视觉接口,用于统一图像的输入与输出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行;最终,通过统一学习框架实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。

模型效果

1. 定量结果分析

c4b4bfce-1923-11f1-90a1-92fbcf53809c.png

c51270c4-1923-11f1-90a1-92fbcf53809c.png

2. 生图效果展示

技术发现

1. 无编码器设计能够同时保留抽象语义与细粒度表征

[图像重建任务]

我们先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。在此基础上,我们进一步观察到一个有趣的现象:即使在冻结理解分支的情况下,独立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。

基于这一发现,我们训练了NEO-unify(2B)。在初步 9 万步预训练后,模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM,而Flux VAE的对应指标为32.65和0.91。这一结果表明,即使不依赖预训练VE或VAE,近似无损的原生输入仍能够同时支持高质量的语义理解与像素级细节保真。

域外图像重建(2B NEO-unify,理解分支冻结)

[图像编辑任务]

据此,我们进一步开展探索:NEO-unify将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。

即使在冻结理解分支的情况下,NEO-unify(2B)仍展现出强大的图像编辑能力,同时显著减少了输入图像令牌的数量。在使用开源生成与图像编辑数据集并进行初步 6 万步混合训练后,模型在ImgEdit基准上取得3.32的成绩,且理解分支在整个训练过程中保持冻结。

小规模数据验证(2B NEO-unify,理解分支冻结)

ImgEdit提示词编辑(2B NEO-unify,理解分支冻结)

2. 无编码器架构与 MoT 主干高度协同大幅降低内在冲突

借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与 监督微调(SFT) 数据进行联合训练。即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在 MoT 主干中协同提升,整体冲突极小。

c77199e4-1923-11f1-90a1-92fbcf53809c.png

3. 无编码器架构,展现更高数据训练效率

此外,我们首先进行 web-scale 预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT) 和 监督微调(SFT)。与 Bagel 模型相比,NEO-unify 展现出更高的数据训练效率,在使用更少训练 token 的情况下取得了更优的性能。

c7d5fa88-1923-11f1-90a1-92fbcf53809c.png

未来展望

这不仅仅是一种模型架构探索,更是迈向下一代智能形态的一步:

• 感知与生成交织的闭环

• 全模态推理

• 视觉推理

• 空间智能

• 世界模型

• …

一条新的路线图正在展开:模型不再在模态之间进行转换,而是能够原生地跨模态思考。多模态 AI 不再只是连接不同系统,而是构建一个从未割裂的统一智能体,并让所需能力从其内部自然涌现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40941

    浏览量

    302524
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253
  • 商汤科技
    +关注

    关注

    8

    文章

    618

    浏览量

    37670

原文标题:技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解生成 — 预测” 一体化的开源具身原生世界模型,该模
    的头像 发表于 03-14 16:54 1991次阅读
    大晓机器人开源实时<b class='flag-5'>生成</b>世界模型Kairos 3.0-4B

    基于NVIDIA GPU加速端点使用千问3.5 VLM开发原生多模态智能体

    阿里巴巴推出了全新开源 千问3.5 系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、具备推理能力的原生视觉语言模型 (VLM),基于由混合专家模型 (M
    的头像 发表于 03-04 16:37 1099次阅读

    商汤科技美颜Agent正式上线

    商汤科技正式推出的美颜Agent,通过将更智能的AI分析和决策能力与历经海量验证的美颜SDK效果执行深度协同,打造出一个能更精准听懂人话、更深刻懂得审美的AI 美颜助手。
    的头像 发表于 02-27 15:37 394次阅读

    商汤大装置SenseCore原生AI云平台荣获软件供应链安全能力评估认证

    近期,商汤大装置SenseCore原生AI云平台通过工业和信息化部电子工业标准化研究院组织的软件供应链安全能力评估,获评优秀级,成为全国首批通过该项认证的企业。
    的头像 发表于 02-26 10:42 634次阅读

    商汤大装置SenseCore原生AI云平台荣获信通院5A卓越级认证

    近日,商汤大装置SenseCore原生AI云平台通过中国信通院与泰尔实验室《算模数用-算力平台服务能力》权威测试,获业界最高等级5A卓越级认证,这也是业界首个获得5A认证的原生AI云平台。
    的头像 发表于 02-04 15:55 445次阅读
    <b class='flag-5'>商汤</b>大装置SenseCore<b class='flag-5'>原生</b>AI云平台荣获信通院5A卓越级认证

    商汤科技日日新V6.5荣获2025年多模态大模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文多模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6.5 Pro)以75.35的总分位列国内第一,斩获金牌,并在
    的头像 发表于 01-06 14:44 905次阅读
    <b class='flag-5'>商汤</b>科技日日新V6.5荣获2025年多模态大模型全国第一

    商汤科技日日新Seko系列模型与寒武纪成功适配

    12月15日,商汤科技基于在生成式AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集生成智能体。该智能体在多剧集视频生成的一致性方面展现出显著优势,其背后依托的是
    的头像 发表于 12-17 14:06 578次阅读

    商汤方舟全面升级助力视觉AI 2.0实现规模化落地

    12月9日,商汤科技与香港科技园公司联合主办的“2025商汤科技AI论坛”于香港科学园圆满落幕。
    的头像 发表于 12-17 13:56 550次阅读
    <b class='flag-5'>商汤</b>方舟全面升级助力<b class='flag-5'>视觉</b>AI 2.0实现规模化落地

    商汤科技推出实时语音驱动数字人技术SekoTalk

    在数字人技术蓬勃发展的今天,生成效率仍是行业面临的核心挑战。商汤科技凭借在生成式 AI 与多模态交互领域的深厚积累,推出了实时语音驱动数字人技术——SekoTalk。
    的头像 发表于 12-17 13:52 567次阅读
    <b class='flag-5'>商汤</b>科技推出实时语音驱动数字人技术SekoTalk

    商汤科技正式发布并开源全新多模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1145次阅读
    <b class='flag-5'>商汤</b>科技正式发布并开源全新多模态模型架构<b class='flag-5'>NEO</b>

    商汤科技持续引领中国原生AI云厂商阵营

    近日,权威研究机构弗若斯特沙利文(Frost & Sullivan)联合头豹研究院发布《2025年H1中国全栈AI云服务市场报告》。报告显示,商汤科技凭整体市场份额位列中国全栈AI云服务市场第四,原生AI云厂商首位,持续引领原生
    的头像 发表于 11-21 10:59 574次阅读

    商汤如影图片数字人技术闪耀央视舞台

    依托商汤日日新大模型的多模态能力,只需上传一张人物照片,输入文字脚本或音频文件,AI 就能自动生成人物动态视频,并支持多种语言,实现了与真人几乎无差别的口型匹配、动作呼应和情绪表达。
    的头像 发表于 09-22 16:18 1124次阅读

    商汤日日新大模型赋能紫光汉图打造激光多功能一体机

    商汤日日新大模型赋能紫光汉图,为一线教师打造全新教学生产力。
    的头像 发表于 08-19 15:51 1046次阅读
    <b class='flag-5'>商汤</b>日日新大模型赋能紫光汉图<b class='flag-5'>打造</b>激光多功能一体机

    商汤科技与上海徐汇区文旅局达成合作

    近日,商汤科技与上海徐汇区文旅局达成合作,基于商汤最新AI大模型日日新SenseNova V6,打造智慧文旅新技术与应用成果,可为游客提供拟人化的“贴身导游”服务。
    的头像 发表于 04-24 16:23 1101次阅读

    芯科科技Unify软件开发套件更新

    Silicon Labs(芯科科技)最新发布的Unify 软件开发套件 (SDK) 更新内容引入了一系列功能,旨在大幅增强对Z-Wave开发的支持,包括优化的安全性以及协议功能。该版本标志着一个转变
    的头像 发表于 04-23 10:03 1482次阅读