商汤科技开源日日新SenseNova-U1-8B-MoT-Infographic信息图增强版模型-电子发烧友网

信息图(infographic)是 AI 图像生成领域公认最难的场景——它要求模型同时做到：文字写准、版式排美、图表画清晰，缺一不可。

商汤日日新SenseNova-U1-8B-MoT-Infographic (信息图增强版)，在原生统一模型 SenseNova-U1-8B-MoT 基础上，针对信息图场景专项增强，在文(小)字准确度、版式稳定性、图表数据正确性三个维度上均有显著提升——同时保持视觉理解能力不退化。

模型权重与训练代码现已开源。

开源地址：

https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic

能生成什么?

从海报到学术论文页，都能做对

海报、图表、菜谱、明信片……甚至 arXiv 风格的学术论文页——不只是美观好看，而且字和数据正确率极高。

1. 高密度文字信息渲染

大量高密度、小字号文字的渲染，是信息图生成的一大难点。过去模型在密集文字段落、表格注释、脚注等这类小字场景容易「糊成一团」，列表信息编号也容易有错。SenseNova-U1-8B-MoT-Infographic 信息图增强版增强了对小字号密集文本的支持，通过专项数据训练与文字准确率强化学习(RL)，显著提升了小字渲染的清晰度与正确率。

信息图增强版还支持 arXiv 风格的学术论文页面渲染，可轻松实现“单栏标题 + 双栏正文 + 脚注 + 页码 + 侧边 arXiv 水印”效果，密集小字都能保持清晰。

2. 复杂图表生成能力

图表生成是信息图里最容易「翻车」的一类。「画一个柱状图」看似容易，但「画一个柱高、刻度、标签、图例全部对得上数据」非常难，这要求模型真正理解数据语义，而不是单纯模仿图表外观。

因此，复杂图表生成能力，特别是数据的正确性，也是信息图增强版提升的关键。依托SenseNova U1 统一架构具备的「先理解再生成」能力，信息图增强版进一步以图表类数据强化训练，帮助模型在生成前先把数据关系「想清楚」，最终能够做出柱高与数据一致，坐标轴刻度正确，年份月份与数值对应，百分比标注无误的信息图。甚至连箭头的标注都能准确指向正确的数据点。

3、设计版式美观与稳定性

准确性有了之后，如何提升信息图版式设计与美观性?主要难点在于结构稳定性。多模块、多列构成的信息图，容易出现模块挤压、对齐错乱、背景杂乱，表格交替底色与图标对应关系不稳等问题。

信息图增强版通过版式合理性专项数据并延长中期训练(MT)，让模型对网格结构、留白、层级有更稳定的把握。由此实现了元素层级清晰，背景更干净，美观度也得到极大提升。

4、丰富应用场景

高质量的信息图可以广泛应用在如产品讲解、UI界面设计、菜谱教程、角色卡牌、知识百科、教程讲解以及漫画、塔罗抽卡等场景。

生成专项增强，不损失理解能力

相比普通图像，信息图生成是一项综合任务，需要文字准确、版式合理、图表正确等多个要素同时成立，其中任何一项出问题，整张图都会让人觉得不对劲。

对统一模型来说，还有一重额外挑战：专门强化生成能力，很容易让通用理解能力退化。SenseNova-U1-8B-MoT-Infographic 在 U1-8B-MoT 基础模型之上构建，用高质量数据延长了 MT 训练阶段、在 MT 与 SFT 阶段优化了理解与生成任务的数据配比、在 RL 阶段进一步打磨了奖励设计。

在采用相同prompt的对比中，信息图增强版相较于原版模型，在生成准确性、美观、版式、图表等各方面都得到显著提升，同时视觉理解能力基本保持，实现了「专项增强，但不牺牲通用能力」。

《儿童营养补充全指南：科学建议+产品选购要点》信息图：漫画风格设计，色彩鲜明，布局清晰合理，在每个板块里又细分为多个模块，图文并茂地呈现科学指导与实用建议。

复古乡村风格2005-2020年Navajo-Churro 年度注册量柱状图：背景为深棕色皮革质感，搭配复古拖拉机插图。纵轴展示四个年份的注册数据，以 500 为增量，从 500 到 2500;横轴为年份 2005、2010、2015、2020;并有横向网格线贯穿图表背景，增强版柱状图上的数字都严格的和纵轴尺度对齐。

用信息图分析古埃及神庙——科姆翁布神庙：进行全面的建筑与结构分析，采用手绘风格，背景为模拟砂岩或泥土质感的棕褐色调。

评测结果也印证了这一点：在保持视觉理解能力的基础上，增强版在信息图相关基准上明显提升。

在BizGenEval模型能力评估中，围绕布局、属性、文字、知识四个维度，信息图增强版在 BizGenEval (Hard)上较原版提升6.8 分，进一步拉开与同级别开源模型的差距。在IGenBench 的 Q-ACC(问答准确率)测试中，衡量信息图是否同时满足文本、图表、数据、结构要求时，增强版较原版提升18.2 分，成绩大幅跃升。