0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技正式开源空间智能模型日日新SenseNova-SI-1.3

商汤科技SenseTime 来源:商汤科技SenseTime 2026-02-10 14:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

商汤科技正式开源空间智能模型日日新SenseNova-SI-1.3,在空间测量、视角转换、综合推理等核心任务中展现出显著提升,另外对比之前的版本增强了回答简答题的能力。

在集成多项权威空间智能榜单的综合评测平台EASI上,SenseNova-SI-1.3综合性能超越Gemini-3-Pro,均分斩获EASI-8(八个权威空间智能榜单的混合评测)标准第一,在多个高难度空间任务(尤其是视角转换)中表现优异。

5d1a9928-032b-11f1-90a1-92fbcf53809c.png

刁钻考题验证:SenseNova-SI-1.3

精准突破空间智能核心难点

EASI-8包含一系列专门考察空间理解能力的高难度测试题,让Gemini-3-Pro等模型都频频踩坑。那么SenseNova-SI-1.3表现如何呢?(下列问题在测试模型时使用的原题为英文,为便于读者理解翻译为中文)。

题目要求统计两张照片中建筑模型的总数量,核心难点是理解两张图的对应关系,以此避免遮挡漏数和重复多数。图2视角下显现出图1中被遮挡的深灰色建筑,且部分模型在两图中重复出现。Gemini-3-Pro未完全去重,误数为6个;SenseNova-SI-1.3则给出“4 个”的准确答案。

题目给出两张书房局部照片,已知iMac 位于房间北部,询问学生写作业区域的方位。需先理解两张图片属于同一空间,再通过视觉线索拼接场景。Gemini-3-Pro误判学习区在西侧;SenseNova-SI-1.3精准定位 “西北角”,完全符合空间逻辑。

题目要求以“未戴眼镜男士的自身视角” 判断身旁戴眼镜男士的方位,考察“参照系转换” 能力,模型很容易以“观察者视角”来判断方向。Gemini-3-Pro就误选了“右边”;SenseNova-SI-1.3则能正确给出“左边” 的正确答案。

题目给出粉色瓶子前、后、左、右4张照片,询问图4角度下瓶子左边物体。这道题需整合多视角线索重构房间全局布局,再切换至目标视角判断方位—— 第4张照片中瓶子左侧完全处于视觉盲区,仅能通过前3张图中的窗户、床、衣柜等线索还原空间关系。Gemini-3-Pro误选 “窗户和蓝色窗帘”,SenseNova-SI-1.3精准锁定正确答案 “衣柜和门”。

以双层巴士与公交站的场景为题,需避免陷入“英国巴士靠左行驶,因此靠站的是左侧”的常识陷阱,而是通过实际的视觉画面判断方位。Gemini-3-Pro误判 “左侧” 为答案;而 SenseNova-SI-1.3则准确理解“右侧” 为正确答案。

空间智能是极其独特的多模态能力

5f91b5f6-032b-11f1-90a1-92fbcf53809c.png

Core Knowledge Deficits in Multi-Modal Language Models (2025)发现视角转换任务与其它多模态任务的相关性(红框内)呈蓝色,即代表相关性较低

一篇2025年发表于机器学习顶会ICML的论文《Core Knowledge Deficits in Multi-Modal Language Models》揭示了一个有趣的发现:视角转换(Perspective)和所有传统多模态模型的能力的相关性均异常得低,这代表主流算法路径可能不是空间智能的形成的有效路径,这也解释了为什么领先的多模态大模型在空间智能相关的任务上表现不佳。

5ff72f8a-032b-11f1-90a1-92fbcf53809c.png

Core Knowledge Deficits in Multi-Modal Language Models (2025)发现增大模型尺寸对提升视角转换任务效果不佳

这篇论文也发现,空间智能似乎存在反尺度效应的现象:更大的模型并不能更好地解决空间智能任务。另外,在EASI的官方报告中也可以找到相似的描述,指出视角转换任务(Perspective-taking)依然是最具挑战的基础能力之一。

空间智能需要全新的学习范式。

从3D世界数据匮乏

到空间智能的尺度效应

空间智能的核心——视角转换任务被拆解成了三个关键步骤:建立跨视角关联、理解视角移动、想象视角变换,并围绕着解决这三个基础能力构造大量训练数据

学术界现有数据集多着重于目标识别与场景理解,模型往往停留在图像模式匹配阶段,难以形成稳定的空间理解能力。基于这一洞察,想要解决空间智能尤其是视角转换任务,简单扩充相关数据规模是不够的。

为了解决这一根本问题,我们将视角转换看作从二维视觉信息迈向三维空间关系理解的关键桥梁,并将其拆解为递进的能力阶段,由易到难、难度递增的三个任务层级(建立跨视角关联、理解视角移动、想象视角变换),并构造大量且层次分明的训练数据,使模型建立完备的空间理解能力。

同时,在数据规模持续扩大的过程中,SenseNova-SI团队挖掘并重组多视角学术数据资源,将许多过去未被充分利用的标注转化为视角转换训练数据。例如,多目关联数据集MessyTable提供了高物体复杂度场景,其中跨视角物体一致性信息与精确的相机位姿标注,可用于训练物体对应与相机运动推理能力;而部分室内场景扫描数据如CA-1M中包含物体自身朝向标注的样本,则被用于补充模型进行视角转换与想象所需的稀缺数据。这种跨数据源的重组与再利用,使积累大量丰富而系统的空间理解数据成为可能。

空间智能的尺度效应:SenseNova-SI在视角转换任务上超越GPT-5

大规模高质量的空间智能数据在SenseNova-SI团队的手中最终验证了空间智能的尺度效应:SenseNova-SI的8B参数基模型最终超越了强闭源模型如GPT-5,而2B参数的小模型也表现不俗,在相同数据规模下,甚至超越了纽约大学的Cambrian-S和字节的VST两个7B参数的模型。

只在Ego-Exo4D上训练第一/第三人称视角匹配的模型可以大幅提升(+90.4%)在MMSI的2D迷宫导航问题上的表现

更有趣的是,团队在研究中似乎发现了一些智能涌现的先兆:一些看起来毫无关联的但也许细想之下有底层能力联系的任务可以协同发展。另外,团队也发现在视角转换任务上训练的模型也可以增强如心智重建(Mental Reconstruction)、综合空间推理(Comprehensive Reasoning)等能力。

商汤引领空间智能普惠生态

SenseNova-SI-1.3模型的升级发布背后,是商汤科技始终致力于打破技术壁垒,让顶尖空间智能技术惠及更多开发者与企业。

对科研人员而言,SenseNova-SI-1.3通过在空间智能上验证数据尺度效应提供了一个与现有基座模型完全兼容,但又长于空间智能的强力预训练模型和基线(SenseNova-SI已被VSI-Bench, MMSI-Bench等权威榜单官方收录),可以直接在其之上设计创新算法或者续训,推动空间智能向人类水平迈进;

对企业来说,可直接基于SenseNova-SI-1.3快速落地应用,缩短研发周期、降低技术门槛;

对普通用户而言,未来将有更多搭载先进空间智能的产品走进生活——从智能家电到自动驾驶,从工业机器人到教育设备,都将更懂 “空间逻辑”、更贴合实际需求。

SenseNova-SI在具身任务上的探索了空间智能的重要性

开源地址

SenseNova-SI模型家族(点击阅读原文跳转):

https://huggingface.co/collections/sensenova/sensenova-si

SenseNova-SI开源代码:

https://github.com/OpenSenseNova/SenseNova-SI

Discord 社区邀请码:

https://discord.gg/WBzH62bk

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4329

    浏览量

    46430
  • 模型
    +关注

    关注

    1

    文章

    3811

    浏览量

    52257
  • 商汤科技
    +关注

    关注

    8

    文章

    618

    浏览量

    37673

原文标题:综合评分登顶八大榜单!商汤开源SenseNova-SI-1.3,空间智能尺度效应突破

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤技正开源多模态自主推理模型SenseNova-MARS

    今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.0
    的头像 发表于 01-30 10:13 774次阅读
    <b class='flag-5'>商汤</b>科<b class='flag-5'>技正</b>式<b class='flag-5'>开源</b>多模态自主推理<b class='flag-5'>模型</b><b class='flag-5'>SenseNova</b>-MARS

    商汤开源SenseNova-MARS:突破多模态搜索推理天花板

    今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.0
    的头像 发表于 01-29 23:53 250次阅读
    <b class='flag-5'>商汤</b><b class='flag-5'>开源</b><b class='flag-5'>SenseNova</b>-MARS:突破多模态搜索推理天花板

    避繁就简!商汤日日新模型灵性巧解数学难题,获赞“机器的审美”

    、字节跳动,让数学与AI同台碰撞,开展了一场真刀真枪的“图灵测试”。 现场,面对数学家抛出的难题,商汤科技“日日新”大模型在解答复分析计算积分、微分几何证明等问题中,展示了惊人的进化力。 在计算一个复杂的广义积分
    的头像 发表于 01-12 11:41 410次阅读
    避繁就简!<b class='flag-5'>商汤</b><b class='flag-5'>日日新</b>大<b class='flag-5'>模型</b>灵性巧解数学难题,获赞“机器的审美”

    商汤科技日日新V6.5荣获2025年多模态大模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文多模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6
    的头像 发表于 01-06 14:44 912次阅读
    <b class='flag-5'>商汤</b>科技<b class='flag-5'>日日新</b>V6.5荣获2025年多模态大<b class='flag-5'>模型</b>全国第一

    商汤科技日日新Seko系列模型与寒武纪成功适配

    12月15日,商汤科技基于在生成式AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集生成智能体。该智能体在多剧集视频生成的一致性方面展现出显著优势,其背后依托的是商汤
    的头像 发表于 12-17 14:06 583次阅读

    商汤技正式发布并开源全新多模态模型架构NEO

    商汤技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新Se
    的头像 发表于 12-08 11:19 1150次阅读
    <b class='flag-5'>商汤</b>科<b class='flag-5'>技正</b>式发布并<b class='flag-5'>开源</b>全新多模态<b class='flag-5'>模型</b>架构NEO

    商汤日日新V6.5多模态大模型登顶全球权威榜单

    根据权威评测平台OpenCompass多模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤日日新 V6.5」(SenseNova
    的头像 发表于 09-10 09:55 934次阅读

    商汤日日新模型赋能紫光汉图打造激光多功能一体机

    商汤日日新模型赋能紫光汉图,为一线教师打造全新教学生产力。
    的头像 发表于 08-19 15:51 1049次阅读
    <b class='flag-5'>商汤</b><b class='flag-5'>日日新</b>大<b class='flag-5'>模型</b>赋能紫光汉图打造激光多功能一体机

    小米AI眼镜×商汤日日新 商汤日日新”大模型交互平台「商量」已探索性接入小米AI眼镜

    程度:据国内XR Vision报道,小米AI眼镜首销3天销量或已接近5万副,创下了中国AI眼镜最快销售纪录。 作为小米长期生态合作伙伴,商汤日日新”大模型交互平台「商量」已探索性接入小米AI 眼镜,成为用户的 “第二大脑”,帮
    的头像 发表于 08-07 15:35 9707次阅读
    小米AI眼镜×<b class='flag-5'>商汤</b><b class='flag-5'>日日新</b> <b class='flag-5'>商汤</b>“<b class='flag-5'>日日新</b>”大<b class='flag-5'>模型</b>交互平台「商量」已探索性接入小米AI眼镜

    看点:商汤日日新”拟接入小米AI眼镜 鸿利智汇:部分产品已应用于小米汽车

    给大家带来一些业界资讯: 商汤日日新”拟接入小米AI眼镜 据商汤科技透露,作为小米长期生态合作伙伴,商汤日日新”大
    的头像 发表于 08-07 14:47 1125次阅读

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI多模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有
    的头像 发表于 06-11 11:57 1553次阅读

    商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一

    出炉!商汤日日新 V6」(SenseNova-V6 Reasoner)凭借出色的综合能力表现,以62.96分的优异成绩,与Doubao-1.5-thinking-pro并列国内第一,摘得金牌,并在
    的头像 发表于 05-30 11:13 1721次阅读
    <b class='flag-5'>商汤</b>科技<b class='flag-5'>日日新</b>V6大<b class='flag-5'>模型</b>斩获“双料第一” 一项国内榜首,一个全球第一

    商汤科技与敦煌当代美术馆达成战略合作

    敦煌的星辰在壁画上流转了二十个世纪,而今正折射出数字文明的光辉。近日,商汤科技与敦煌当代美术馆正式达成战略合作,基于商汤科技最新日日新模型体系,双方将共同推动人工
    的头像 发表于 05-08 16:48 1121次阅读

    商汤科技与上海徐汇区文旅局达成合作

    近日,商汤科技与上海徐汇区文旅局达成合作,基于商汤最新AI大模型日日新SenseNova V6,打造智慧文旅新技术与应用成果,可为游客提供拟
    的头像 发表于 04-24 16:23 1102次阅读

    商汤科技助力如影数字人超级直播间全新升级

    作为数字人全行业首创,如影数字人超级直播间可实现多模态智能运营,依托“商汤日日新SenseNova”多模态大模型,直播间具备
    的头像 发表于 04-23 16:31 1081次阅读