0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技正式开源多模态自主推理模型SenseNova-MARS

商汤科技SenseTime 来源:商汤科技SenseTime 2026-01-30 10:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。

SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型,它能自己规划步骤、调用工具,轻松搞定各种复杂任务,让AI真正具备“执行能力”。

在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的SOTA 成绩,还超越Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大核心领域全面领跑。更多细节请参见技术报告(https://arxiv.org/abs/2512.24330),欢迎开发者、各行业用户测试与体验。

全能冠军,自主解决复杂问题

SenseNova-MARS在多项多模态搜索评测中展现出明显的领先优势,平均得分达到 69.74 分,成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。

0d8ae30c-fd24-11f0-92de-92fbcf53809c.png

在MMSearch 榜单(图文搜索核心评测)中,模型以 74.27 分登顶,超越GPT-5.2(66.08 分);HR-MMSearch(高清细节搜索评测)中 54.43 分领先,显著拉开与闭源模型的差距。

0df07820-fd24-11f0-92de-92fbcf53809c.png

HR-MMSearch的测试题目堪称“AI界的奥林匹克”:采用305张2025年最新的4K超高清图片,确保AI无法依赖旧知识“作弊”;所有问题都针对图片中占比不到5%的细节,比如小标志、小字、微小物体,必须用图像裁剪工具才能看清;覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域,60%的问题都需要至少使用三种工具才能解答。

简单说,无论是需要“查遍全网”的知识密集型任务,还是需要“火眼金睛”的细粒度视觉分析,它都是当前的“全能冠军”。

用组合拳,解决真实场景问题

SenseNova-MARS还能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。

普通AI的工具调用,要么只能搜文字,要么只能看图片,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务就束手无策。

面对识别赛车服微小logo +查询公司成立年份+匹配车手出生年月+计算差值’的复杂任务,SenseNova-MARS可自主调用图像裁剪、文本/图像搜索工具,无需人工干预完成闭环解答。

SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。

SenseNova-MARS能从赛事照片中识别画面中的logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。

SenseNova-MARS甚至能够轻松处理,这类超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。

拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,帮助实现工作效率提升。

图像裁剪:能精准聚焦图片上的微小细节,哪怕是占比不到5%的细节——比如赛车手衣服上的微小logo、赛事照片里观众席的标语,都可通过裁剪放大清晰分析。

图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。

文本搜索:能快速抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据,都能秒级获取。

从练中学,形成“经验”和“直觉”

SenseNova-MARS采用了“因材施教”的训练方法。

第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,创新性的提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点+ 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。用精心筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。

第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。 这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。

经过这样的训练,AI不仅学会了用工具,更培养"工具使用直觉"——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。

模型、代码、数据全开源

商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持 Hugging Face 直接下载。

Github 仓库:

https://github.com/OpenSenseNova/SenseNova-MARS

模型仓库:

32B:

https://huggingface.co/sensenova/SenseNova-MARS-32B

8B:

https://huggingface.co/sensenova/SenseNova-MARS-8B

技术报告点击“阅读原文”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4421

    浏览量

    46577
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52337
  • 商汤科技
    +关注

    关注

    8

    文章

    626

    浏览量

    37702

原文标题:商汤开源SenseNova-MARS:突破多模态搜索推理天花板

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    海光信息DCU产品深度适配商汤科技SenseNova U1系列大模型

    近日,商汤科技推出并开源新一代原生模态模型SenseNova U1,海光DCU率先完成适配,
    的头像 发表于 05-14 17:32 730次阅读

    商汤科技发布日日新SenseNova 6.7 Flash-Lite模型

    今天,我们正式推出新一代轻量化模态智能体模型——商汤日日新SenseNova 6.7 Flash-Lite。
    的头像 发表于 05-08 16:30 604次阅读
    <b class='flag-5'>商汤</b>科技发布日日新<b class='flag-5'>SenseNova</b> 6.7 Flash-Lite<b class='flag-5'>模型</b>

    商汤科技办公小浣熊接入SenseNova U1系列模型

    商汤办公小浣熊接入SenseNova U1模型,全新功能「一图读懂」正式上线。
    的头像 发表于 05-08 16:28 217次阅读

    商汤科技发布并开源新一代原生理解生成统一模型SenseNova U1系列

    近日,商汤科技发布并开源新一代原生理解生成统一模型SenseNova U1系列,随后壁仞科技、寒武纪、昆仑芯、摩尔线程、中科海光等10家国产芯片公司,均已完成对
    的头像 发表于 05-08 16:26 667次阅读

    壁仞科技完成商汤日日新SenseNova U1系列大模型极速适配

    近日,商汤技正式发布并开源日日新SenseNova U1系列原生理解生成统一模型。壁仞科技基于SGLang
    的头像 发表于 05-07 15:47 230次阅读
    壁仞科技完成<b class='flag-5'>商汤</b>日日新<b class='flag-5'>SenseNova</b> U1系列大<b class='flag-5'>模型</b>极速适配

    昆仑芯科技完成商汤日日新SenseNova U1系列大模型极速适配

    近日,商汤正式发布并开源原生理解生成统一模型——商汤日日新SenseNova U1系列。在模型
    的头像 发表于 05-06 10:55 575次阅读

    商汤技正开源空间智能模型日日新SenseNova-SI-1.3

    商汤技正开源空间智能模型日日新SenseNova-SI-1.3,在空间测量、视角转换、综合推理
    的头像 发表于 02-10 14:12 691次阅读
    <b class='flag-5'>商汤</b>科<b class='flag-5'>技正</b>式<b class='flag-5'>开源</b>空间智能<b class='flag-5'>模型</b>日日新<b class='flag-5'>SenseNova</b>-SI-1.3

    商汤开源SenseNova-MARS:突破模态搜索推理天花板

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在
    的头像 发表于 01-29 23:53 306次阅读
    <b class='flag-5'>商汤</b><b class='flag-5'>开源</b><b class='flag-5'>SenseNova-MARS</b>:突破<b class='flag-5'>多</b><b class='flag-5'>模态</b>搜索<b class='flag-5'>推理</b>天花板

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 835次阅读
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    商汤科技日日新V6.5荣获2025年模态模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(
    的头像 发表于 01-06 14:44 1039次阅读
    <b class='flag-5'>商汤</b>科技日日新V6.5荣获2025年<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>全国第一

    商汤技正式发布并开源全新模态模型架构NEO

    商汤技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日
    的头像 发表于 12-08 11:19 1241次阅读
    <b class='flag-5'>商汤</b>科<b class='flag-5'>技正</b>式发布并<b class='flag-5'>开源</b>全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    商汤日日新V6.5模态模型登顶全球权威榜单

    根据权威评测平台OpenCompass模态模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(
    的头像 发表于 09-10 09:55 1040次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2137次阅读
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>发布

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产力!
    的头像 发表于 08-14 11:34 1652次阅读

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态模型首轮评估。 商汤日日新SenseNova融合
    的头像 发表于 06-11 11:57 1632次阅读