0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技开源日日新SenseNova-U1-8B-MoT-Infographic信息图增强版模型

商汤科技SenseTime 来源:商汤科技SenseTime 2026-06-01 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

信息图(infographic)是 AI 图像生成领域公认最难的场景——它要求模型同时做到:文字写准、版式排美、图表画清晰,缺一不可。

商汤日日新SenseNova-U1-8B-MoT-Infographic (信息图增强版),在原生统一模型 SenseNova-U1-8B-MoT 基础上,针对信息图场景专项增强,在文(小)字准确度、版式稳定性、图表数据正确性三个维度上均有显著提升——同时保持视觉理解能力不退化。

模型权重与训练代码现已开源。

开源地址:

https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic

能生成什么?

从海报到学术论文页,都能做对

海报、图表、菜谱、明信片……甚至 arXiv 风格的学术论文页——不只是美观好看,而且字和数据正确率极高。

1. 高密度文字信息渲染

大量高密度、小字号文字的渲染,是信息图生成的一大难点。过去模型在密集文字段落、表格注释、脚注等这类小字场景容易「糊成一团」,列表信息编号也容易有错。SenseNova-U1-8B-MoT-Infographic 信息图增强版增强了对小字号密集文本的支持,通过专项数据训练与文字准确率强化学习(RL),显著提升了小字渲染的清晰度与正确率。

信息图增强版还支持 arXiv 风格的学术论文页面渲染,可轻松实现“单栏标题 + 双栏正文 + 脚注 + 页码 + 侧边 arXiv 水印”效果,密集小字都能保持清晰。

2. 复杂图表生成能力

图表生成是信息图里最容易「翻车」的一类。「画一个柱状图」看似容易,但「画一个柱高、刻度、标签、图例全部对得上数据」非常难,这要求模型真正理解数据语义,而不是单纯模仿图表外观。

因此,复杂图表生成能力,特别是数据的正确性,也是信息图增强版提升的关键。依托SenseNova U1 统一架构具备的「先理解再生成」能力,信息图增强版进一步以图表类数据强化训练,帮助模型在生成前先把数据关系「想清楚」,最终能够做出柱高与数据一致,坐标轴刻度正确,年份月份与数值对应,百分比标注无误的信息图。甚至连箭头的标注都能准确指向正确的数据点。

3、设计版式美观与稳定性

准确性有了之后,如何提升信息图版式设计与美观性?主要难点在于结构稳定性。多模块、多列构成的信息图,容易出现模块挤压、对齐错乱、背景杂乱,表格交替底色与图标对应关系不稳等问题。

信息图增强版通过版式合理性专项数据并延长中期训练(MT),让模型对网格结构、留白、层级有更稳定的把握。由此实现了元素层级清晰,背景更干净,美观度也得到极大提升。

4、丰富应用场景

高质量的信息图可以广泛应用在如产品讲解、UI界面设计、菜谱教程、角色卡牌、知识百科、教程讲解以及漫画、塔罗抽卡等场景。

生成专项增强,不损失理解能力

相比普通图像,信息图生成是一项综合任务,需要文字准确、版式合理、图表正确等多个要素同时成立,其中任何一项出问题,整张图都会让人觉得不对劲。

对统一模型来说,还有一重额外挑战:专门强化生成能力,很容易让通用理解能力退化。SenseNova-U1-8B-MoT-Infographic 在 U1-8B-MoT 基础模型之上构建,用高质量数据延长了 MT 训练阶段、在 MT 与 SFT 阶段优化了理解与生成任务的数据配比、在 RL 阶段进一步打磨了奖励设计。

在采用相同prompt的对比中,信息图增强版相较于原版模型,在生成准确性、美观、版式、图表等各方面都得到显著提升,同时视觉理解能力基本保持,实现了「专项增强,但不牺牲通用能力」。

《儿童营养补充全指南:科学建议+产品选购要点》信息图:漫画风格设计,色彩鲜明,布局清晰合理,在每个板块里又细分为多个模块,图文并茂地呈现科学指导与实用建议。

复古乡村风格2005-2020年Navajo-Churro 年度注册量柱状图:背景为深棕色皮革质感,搭配复古拖拉机插图。纵轴展示四个年份的注册数据,以 500 为增量,从 500 到 2500;横轴为年份 2005、2010、2015、2020;并有横向网格线贯穿图表背景,增强版柱状图上的数字都严格的和纵轴尺度对齐。

用信息图分析古埃及神庙——科姆翁布神庙:进行全面的建筑与结构分析,采用手绘风格,背景为模拟砂岩或泥土质感的棕褐色调。

评测结果也印证了这一点:在保持视觉理解能力的基础上,增强版在信息图相关基准上明显提升。

在BizGenEval模型能力评估中,围绕布局、属性、文字、知识四个维度,信息图增强版在 BizGenEval (Hard)上较原版提升6.8 分,进一步拉开与同级别开源模型的差距。在IGenBench 的 Q-ACC(问答准确率)测试中,衡量信息图是否同时满足文本、图表、数据、结构要求时,增强版较原版提升18.2 分,成绩大幅跃升。

12f76ad4-5a91-11f1-90a1-92fbcf53809c.png

信息图难在要求模型,既要画得好看,又要把每一个字、每一根柱子、每一个箭头都画对。SenseNova-U1-8B-MoT-Infographic 在 8B 这一轻量规模上,把这件难事推进了一大步。

沿着这个方向,我们还将持续迭代不断拉近与顶级闭源模型距离,并在后续版本带来更稳定的表现。模型权重与代码现已开源,我们还同时开放了 SenseNova U1 系列模型训练代码。欢迎开发者下载、复现、共建——理解生成一体的模型还有更多值得探索的空间。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42418

    浏览量

    303369
  • 模型
    +关注

    关注

    1

    文章

    3893

    浏览量

    52397
  • 商汤科技
    +关注

    关注

    8

    文章

    628

    浏览量

    37719

原文标题:把信息图做对、做好,SenseNova-U1啃下这块硬骨头

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    海光信息DCU产品深度适配商汤科技SenseNova U1系列大模型

    近日,商汤科技推出并开源新一代原生多模态大模型SenseNova U1,海光DCU率先完成适配,是国内首批适配
    的头像 发表于 05-14 17:32 781次阅读

    商汤科技发布日日新SenseNova 6.7 Flash-Lite模型

    今天,我们正式推出新一代轻量化多模态智能体模型——商汤日日新SenseNova 6.7 Flash-Lite。
    的头像 发表于 05-08 16:30 709次阅读
    <b class='flag-5'>商汤</b>科技发布<b class='flag-5'>日日新</b><b class='flag-5'>SenseNova</b> 6.7 Flash-Lite<b class='flag-5'>模型</b>

    商汤科技办公小浣熊接入SenseNova U1系列模型

    商汤办公小浣熊接入SenseNova U1模型,全新功能「一读懂」正式上线。
    的头像 发表于 05-08 16:28 278次阅读

    商汤科技发布并开源新一代原生理解生成统一模型SenseNova U1系列

    近日,商汤科技发布并开源新一代原生理解生成统一模型SenseNova U1系列,随后壁仞科技、寒武纪、昆仑芯、摩尔线程、中科海光等10家国产
    的头像 发表于 05-08 16:26 694次阅读

    沐曦股份Day 0适配商汤科技日日新SenseNova U1系列大模型

    近日,日日新 SenseNova U1 原生理解生成统一模型发布并开源。沐曦股份旗下曦云C系列 GPU率先完成 Day 0 适配,成为率先完
    的头像 发表于 05-07 16:24 1679次阅读
    沐曦股份Day 0适配<b class='flag-5'>商汤</b>科技<b class='flag-5'>日日新</b><b class='flag-5'>SenseNova</b> <b class='flag-5'>U1</b>系列大<b class='flag-5'>模型</b>

    壁仞科技完成商汤日日新SenseNova U1系列大模型极速适配

    近日,商汤科技正式发布并开源日日新SenseNova U1系列原生理解生成统一模型。壁仞科技基于
    的头像 发表于 05-07 15:47 270次阅读
    壁仞科技完成<b class='flag-5'>商汤</b><b class='flag-5'>日日新</b><b class='flag-5'>SenseNova</b> <b class='flag-5'>U1</b>系列大<b class='flag-5'>模型</b>极速适配

    寒武纪Day 0适配商汤科技日日新SenseNova U1系列大模型

    近日,在商汤科技发布日日新 SenseNova U1 系列原生理解生成统一模型当日,寒武纪已完成对 Se
    的头像 发表于 05-07 12:38 472次阅读

    昆仑芯科技完成商汤日日新SenseNova U1系列大模型极速适配

    近日,商汤正式发布并开源原生理解生成统一模型——商汤日日新SenseNova
    的头像 发表于 05-06 10:55 600次阅读

    商汤科技正式开源空间智能模型日日新SenseNova-SI-1.3

    商汤科技正式开源空间智能模型日日新SenseNova-SI-1.3,在空间测量、视角转换、综合推理等核心任务中展现出显著提升,另外对比之前的
    的头像 发表于 02-10 14:12 711次阅读
    <b class='flag-5'>商汤</b>科技正式<b class='flag-5'>开源</b>空间智能<b class='flag-5'>模型</b><b class='flag-5'>日日新</b><b class='flag-5'>SenseNova</b>-SI-1.3

    商汤科技正式开源多模态自主推理模型SenseNova-MARS

    今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在
    的头像 发表于 01-30 10:13 900次阅读
    <b class='flag-5'>商汤</b>科技正式<b class='flag-5'>开源</b>多模态自主推理<b class='flag-5'>模型</b><b class='flag-5'>SenseNova</b>-MARS

    商汤科技日日新V6.5荣获2025年多模态大模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文多模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6
    的头像 发表于 01-06 14:44 1100次阅读
    <b class='flag-5'>商汤</b>科技<b class='flag-5'>日日新</b>V6.5荣获2025年多模态大<b class='flag-5'>模型</b>全国第一

    商汤科技正式发布并开源全新多模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态
    的头像 发表于 12-08 11:19 1271次阅读
    <b class='flag-5'>商汤</b>科技正式发布并<b class='flag-5'>开源</b>全新多模态<b class='flag-5'>模型</b>架构NEO

    商汤日日新V6.5多模态大模型登顶全球权威榜单

    根据权威评测平台OpenCompass多模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤日日新 V6.5」(SenseNova
    的头像 发表于 09-10 09:55 1061次阅读

    商汤日日新模型赋能紫光汉打造激光多功能一体机

    商汤日日新模型赋能紫光汉,为一线教师打造全新教学生产力。
    的头像 发表于 08-19 15:51 1161次阅读
    <b class='flag-5'>商汤</b><b class='flag-5'>日日新</b>大<b class='flag-5'>模型</b>赋能紫光汉<b class='flag-5'>图</b>打造激光多功能一体机

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI多模态大模型首轮评估。 商汤日日新SenseNova融合模态大
    的头像 发表于 06-11 11:57 1648次阅读