0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

京东零售广告创意:统一的布局生成和评估模型

京东云 来源:jf_75140285 作者:jf_75140285 2026-01-13 16:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGll_92AeZLCAAFq24ROlPo233.png

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

论文链接:https://arxiv.org/abs/2508.02374

代码链接:https://github.com/JD-GenX/Uni-Layout



摘要:布局生成在电商图片的设计中起到至关重要的作用。当前的布局生成方法在能力上具有任务特定性,并且评估标准与人类感知不一致,导致其应用范围有限且评估效果不佳。为了解决这些问题,Uni-Layout实现了统一生成、模拟人类的评估以及二者之间的对齐。针对通用生成,该框架将各种布局任务整合到一个统一的分类系统中,并开发了一个统一的生成器,通过自然语言提示处理背景或元素内容受限的任务。为了引入人类反馈以有效评估布局,我们构建了Layout-HF100k,这是首个包含10万个人工标注布局的大规模人类反馈数据集。基于Layout-HF100k,我们引入了一种模拟人类的评估器,该评估器结合视觉和几何信息,采用思维链机制进行定性评估,并通过信心估计模块提供定量测量。为了更好地对齐生成器和评估器,我们采用动态边距偏好优化(DMPO)技术,将二者整合为一个协调系统,以更好地符合人类判断。

一、背景及现状

布局生成旨在为给定的元素设计吸引人的视觉排版,涵盖从海报和文档设计到用户界面布局和杂志排版等广泛任务。虽然生成模型取得了显著进展,但现有方法通常专注于狭义任务,导致解决方案缺乏灵活性和普适性。此外,尽管现有的评估指标基于布局设计原则精心设计,但它们常常与人类的感知不一致。如图1所示,高评分的布局可能在视觉质量上较差,这揭示了现有指标与真实人类感知之间的差距。为了解决这些挑战,我们提出了Uni-Layout,一个通过统一生成器、模拟人类的评估器和动态边距对齐机制来整合布局生成、评估和对齐的整体框架。为了详细阐述Uni-Layout,本文围绕三个核心研究问题展开。

wKgZO2ll_9-APJ_UAArZM0ELzKk529.png

图1:布局生成任务的分类体系与动机阐述

二、如何实现跨任务的统一布局生成?

为了系统地统一当前分散的布局生成任务领域,我们提出了一个基于两个维度的精心组织的分类法:背景和元素内容是自由的还是受限的。如图1所示,我们将现有的布局任务分为四种代表性类型:BFEF、BCEF、BFEC和BCEC。当前的任务特定方法在统一布局生成方面存在困难,但多模态大型语言模型(MLLMs)由于其通用的视觉-语言理解能力,提供了有前景的解决方案。利用MLLMs,我们提出了一个统一的布局生成器,其工作方式类似于一名熟练的设计师。该生成器结合视觉约束和文本指令来生成连贯的布局,能够处理背景和元素内容既可以受限也可以自由的多种场景。通过在各种布局任务上的联合训练,它为布局生成提供了一个灵活且统一的解决方案。

为了统一多种布局任务,一个通用的布局任务指令可写作:

wKgZPGll_-CAa35nAAAmeqnutRU901.png

其中T为任务描述,b表示背景的内容和属性,e表示元素的内容和属性,O是指定的输出格式。注意背景和元素的属性是必须的,但其内容可为空。为了清楚起见,我们针对BCEC任务提供了一个说明示例,其中下划线部分对应上式中的对应项。

wKgZO2ll_-GAXEdJAAC_ECRcmMY877.png



三、如何模拟人类来评估布局?

尽管人类感知在布局设计中非常重要,但现有数据集中缺乏对布局质量的人类反馈。为弥补这一缺口,我们汇总了统一生成器的输出,并编制了Layout-HF100k,这是首个专为布局生成策划的全面人类反馈数据集,包含10万个精心标注的高质量示例,涵盖代表性布局任务。该数据集的示例如图2所示。

wKgZPGll_-KAZa8MAAc0B2W331E020.png

图2:Layout-HF100k示例。第一/二行分别为合格/不合格布局。

基于这一全新的数据集,我们开发了一种评估器,结构如图3(b)和(c)所示。其通过视觉和几何信息两个分支处理布局,以有效模拟人类判断模式。此外,该评估器结合了一个输出定量置信度估计的分类头,以及定性“思维链”(CoT)推理,使其能够捕捉微妙的审美偏好,并提供与人类感知模式紧密对齐的可解释评估。通过结合多模态分析和CoT推理,我们的评估器不仅能够做出准确判断,还能阐明其决策背后的理由,类似于人类专家如何评估布局。

具体来说,CoT包含以下四个步骤:

(1) 布局概览:对布局可视化结果快速而全面的扫描,通过简洁的文本描述捕捉布局的第一印象,概述整体构图和上下文元素。

(2) 空间解构:系统地分解布局的基本组成部分,分析几何属性和空间关系。它检查对齐模式、识别潜在重叠,并评估间距一致性,以揭示潜在的结构框架。

(3) 美学评估:对布局的视觉质量进行详细评估,重点关注艺术价值和设计原则。这包括对比例平衡、空间和谐和视觉节奏的评估,同时考虑这些元素如何对整体美学效果产生影响。

(4) 全面评估:最后阶段综合所有先前分析的见解,以提供对布局有效性的全面评估,最后给出“合格”或“不合格”的明确判断。

wKgZO2ll_-SAAp6mAAZJHBZVroE720.png

图3:Uni-Layout框架概览

四、如何有效对齐人类反馈和布局生成?

现有的对齐方法要么直接最大化人类偏好的输出可能性,要么在其偏好学习目标中使用固定边距。这些传统方法未能反映人类偏好的不同程度,因为它们对强偏好和弱偏好一视同仁。为了解决这一限制,我们提出了一种新的对齐方法,称为动态边距偏好优化(DMPO)。具体而言,当评估者在成对样本之间表现出更强烈的偏好时,DMPO会自动增加边距,以在胜出和失败的响应之间强制产生更大的分数差异,而对于不太明显的偏好则应用较小的边距。这种信心引导的自适应边距策略更好地捕捉了人类判断的范围,从而实现与布局生成和人类偏好的更精确对齐。

如图3(d)所示,给定任务指令和可选的背景或元素内容,生成器产生两个候选布局l1和l2。之后通过双分支处理器将布局结果转化为视觉和几何信息,并通过布局评估器产出候选布局的得分。我们将两种布局的分数差距定义如下:

wKgZPGll_-WAFBe7AAAeF71_ugQ786.png

wKgZO2ll_-WAZ8dSAAAOvhT6aho889.png

其中I+和l+分别表示高分布局的视觉和几何信息。为了进一步增强对边距的感知,我们应用了非线性变换f()来处理分数差距。最终,DMPO的损失形式可写作:

wKgZPGll_-aAeIlfAAB5IE6nXLI543.png

通过将生成和评估整合到反馈循环中,DMPO弥合了布局生成和人类审美偏好之间的差距,产生了更具视觉吸引力的布局。

五、实验结果

(1)布局评估模型性能

为了验证我们的评估器,我们将其与一些领先的闭源(M)LLM模型进行比较,包括GPT-4o、Claude3.5 Sonnet(Claude3.5)、GLM-4v和DeepSeek-R1。这些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和视觉输入,除了DeepSeek-R1,它只处理文本。如表1所示,我们的模型表现出色,达到85.5%的准确率,比现有的MLLMs高出25-35%。一些MLLMs的表现接近随机(约50%),突显了它们在布局评估中的局限性。

wKgZO2ll_-aAXhPpAACDWLf4P6U686.png

表1 :布局评估模型对比

(2)布局生成模型性能

在本小节中,我们与三类基线方法进行了比较:(1) 针对单个布局任务设计的任务特定SOTA模型(例如,LayoutDM);(2) 闭源模型,包括GPT-4o、Claude3.5和DeepSeek-R1;(3) 开源的多模态大语言模型(MLLMs),如联合训练四个任务的LLaVA。

在表2展示的任务特定评估中,我们的方法在多个指标上表现出色。值得注意的是,在BFEF任务中,我们实现了最低的Ove(0.001)和Ali(0.00004),与专用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任务中,我们的方法以最小的Ove(0.00045)和最高的Max.(0.439)创下新纪录。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 京东
    +关注

    关注

    2

    文章

    1128

    浏览量

    50140
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MWC 2026 | 广和通发布 AI ECR 解决方案,以端侧 AI 能力开启无人零售新纪元

    3月3日,在2026年世界移动通信大会( MWC 2026 )上,广和通发布专为无人值守及自动零售场景设计的新代 AI 智能收银机( ECR )解决方案。该方案基于联发科技高性能 Genio
    的头像 发表于 03-06 22:41 301次阅读
    MWC 2026 | 广和通发布 AI ECR 解决方案,以端侧 AI 能力开启无人<b class='flag-5'>零售</b>新纪元

    云边云科技SD-WAN智慧网络,打通零售连锁终端运营“最后公里”

    前言全国上百家门店的收银数据、库存同步和视频监控如何实现统一管理?面对数字化转型的浪潮,零售连锁企业正通过SD-WAN技术找到答案。在线上线下深度融合的新零售时代,门店POS交易、库存实时同步、会员
    的头像 发表于 12-22 14:12 492次阅读
    云边云科技SD-WAN智慧网络,打通<b class='flag-5'>零售</b>连锁终端运营“最后<b class='flag-5'>一</b>公里”

    云边云科技参与发布《生成式人工智能零售业全景探索白皮书》

    、云边云科技入选生成式人工智能零售业全景探索白皮书生成式人工智能在生产力和效率优化、关键风险防控、产品和服务提升等方面可以发挥重要作用,本次发布的《
    的头像 发表于 12-15 09:58 646次阅读
    云边云科技参与发布《<b class='flag-5'>生成</b>式人工智能<b class='flag-5'>零售</b>业全景探索白皮书》

    高格欣壁挂广告机:新零售连锁的品牌实力“放大器”

    当新零售连锁进入“体验制胜”的时代,终端展示设备已不再是简单的广告载体,更成为品牌实力的直观名片。深圳市高格欣科技的壁挂广告机,凭借工业级品质、智能交互能力与场景适配性,正成为连锁品牌破局流量困境
    的头像 发表于 11-22 17:03 681次阅读
    高格欣壁挂<b class='flag-5'>广告</b>机:新<b class='flag-5'>零售</b>连锁的品牌实力“放大器”

    JDD Oxygen智能零售论坛 | 《大模型时代的广告营销变革与实践》

    核心观点 1. 通用大模型想解决营销领域问题需向垂类模型转型。 “全才”通用大模型难覆盖广告营销全流程,需升级为“懂营销”的垂直模型,实现从
    的头像 发表于 10-27 17:18 1013次阅读
    JDD Oxygen智能<b class='flag-5'>零售</b>论坛 | 《大<b class='flag-5'>模型</b>时代的<b class='flag-5'>广告</b>营销变革与实践》

    理想汽车首个海外零售中心正式开业

    经销商模式。今年11月,理想汽车在哈萨克斯坦第大城市阿拉木图和首都阿斯塔纳的零售中心也将陆续开业。理想汽车将为通过授权零售中心购车的海外用户提供官方质保,以及专业的检查维修、高效的原厂备件配送、技术支持、OTA升级等官方服务。
    的头像 发表于 10-14 16:25 981次阅读

    SD-WAN智慧网络赋能,打通零售连锁终端运营“最后公里”

    前言全国上百家门店的收银数据、库存同步和视频监控如何实现统一管理?面对数字化转型的浪潮,零售连锁企业正通过SD-WAN技术找到答案。在线上线下深度融合的新零售时代,门店POS交易、库存实时同步、会员
    的头像 发表于 10-14 10:49 1463次阅读
    SD-WAN智慧网络赋能,打通<b class='flag-5'>零售</b>连锁终端运营“最后<b class='flag-5'>一</b>公里”

    安卓工控体机在智慧新零售市场领域的应用分析

    在智慧零售市场规模突破2000亿的赛道上,安卓工控体机正以 “隐形中枢” 的角色,重塑无人零售的运营逻辑与消费体验。
    的头像 发表于 09-22 11:28 876次阅读
    安卓工控<b class='flag-5'>一</b>体机在智慧新<b class='flag-5'>零售</b>市场领域的应用分析

    智慧零售全面爆发,BLE芯片趁势而起

     2025年,全球智慧零售市场预计突破1.2万亿美元,年均增速约15%,其中亚太地区(以中国为主)占全球市场的40%以上。中国市场规模预计达到8500亿元人民币,占全球的35%,年均增速20%,领先
    的头像 发表于 09-19 16:20 799次阅读
    智慧<b class='flag-5'>零售</b>全面爆发,BLE芯片趁势而起

    高格欣广告机:重构商业领域新零售消费链路的 “智能营销枢纽”

    不知你是否留意到,商业零售领域正经历着大变革,越来越多的数字化新零售体系在逐步取代传统的商业模式,显示与智能交互功能为体的显示设备终端,已成为推动新零售发展的关键力量,从根本上重塑了
    的头像 发表于 08-29 17:26 904次阅读
    高格欣<b class='flag-5'>广告</b>机:重构商业领域新<b class='flag-5'>零售</b>消费链路的 “智能营销枢纽”

    零售行业出海数据回流,如何选择SDWAN

    >全球零售网络的扩张正面临关键转折点:**数据回流的效率与安全**,已成为出海企业增长的核心瓶颈,而SD-WAN技术正通过智能化的网络重构,成为破局的关键利器。随着零售企业加速全球化布局
    的头像 发表于 08-21 14:09 1638次阅读
    <b class='flag-5'>零售</b>行业出海数据回流,如何选择SDWAN

    京东零售在智能供应链领域的前沿探索与技术实践

    近日,“智汇运河 智算未来”2025人工智能创新创业大会在杭州召开。香港工程科学院院士、香港大学副校长、研究生院院长、讲座教授、京东零售供应链首席科学家申作军教授与供应链算法团队技术总监戚永志博士
    的头像 发表于 08-04 16:10 1176次阅读
    <b class='flag-5'>京东</b><b class='flag-5'>零售</b>在智能供应链领域的前沿探索与技术实践

    融智兴科技:RFID超高频零售标签解析

    融智兴科技推出的RFID超高频零售标签,专为零售场景高频次、多品类、快速周转而设计,具备远距离群读、批量写入、耐环境干扰等特点,并通过了ARC(Auburn RFID Lab)认证,满足沃尔玛、山姆会员店等全球零售巨头的标准。
    的头像 发表于 07-30 16:32 921次阅读
    融智兴科技:RFID超高频<b class='flag-5'>零售</b>标签解析

    从校园实验室到京东零售位算法工程师的风控实战录

    大家好,我是王晓婷,在京东零售研究广告反作弊算法设计、实现与优化,结合LLM、深度学习、强化学习赋能反作弊系统,用算法识别和打击数字广告领域的欺诈行为。本文与大家分享我从高校实验室到
    的头像 发表于 05-22 16:39 826次阅读
    从校园实验室到<b class='flag-5'>京东</b><b class='flag-5'>零售</b>:<b class='flag-5'>一</b>位算法工程师的风控实战录

    绝味20岁生日会,鸭厂鹅厂联手发布中国零售连锁AI垂直场景大模型

    绝味×腾讯,首个中国零售连锁AI垂直场景大模型的破壳之路
    的头像 发表于 04-23 19:18 1590次阅读
    绝味20岁生日会,鸭厂鹅厂联手发布中国<b class='flag-5'>零售</b>连锁AI垂直场景大<b class='flag-5'>模型</b>