0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

京东零售广告创意:引入场域目标的创意图片生成

京东云 来源:京东零售 冯伟 作者:京东零售 冯伟 2025-03-18 14:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:京东零售 冯伟

wKgZO2fZC_yAc6vuAAKQTjIphLI530.png

WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models

论文链接:https://arxiv.org/pdf/2502.06823

代码链接:https://github.com/Chenguoz/CAIG

摘要:在电商平台中,广告图片对于吸引用户注意力和提高广告效果至关重要。大多数现有的方法在为商品生成背景时主要关注美学质量,这可能无法实现令人满意的在线表现。为了解决这一局限性,我们探索使用多模态大型语言模型(MLLMs)来生成广告图片,并将优化点击率(CTR)作为主要目标。首先,我们构建了针对性的预训练任务,并利用大规模的电商多模态数据集,为MLLMs提供广告图片生成任务的初始能力。为了进一步提高生成图片的CTR,我们提出了一种新颖的奖励模型,通过强化学习(RL)对预训练的MLLMs进行微调,该模型能够联合利用多模态特征并准确反映用户的点击偏好。同时,我们开发了一种以商品为中心的偏好优化策略,以确保微调后生成的背景内容与商品特征一致,从而增强广告图片的整体相关性和效果。大量实验表明,我们的方法在在线和离线指标上均达到了最先进的性能。



一、背景及现状

随着图像生成技术的发展,为商品生成和谐且逼真的背景成为可能。然而,大多数现有的广告图像生成方法主要关注离线指标,如图像质量或语义一致性,而没有充分考虑视觉内容与场域目标(如点击率)之间的重要联系。这导致生成的广告图像与符合实际用户偏好的理想图像之间存在显著差异。

受最近RLHF方法的启发,我们可以训练一个奖励模型(RM),再使用强化学习(RL)算法来微调生成模型,由RM提供奖励以指导优化过程。这个流程的一个关键方面是RM能够准确反映用户对图像的点击偏好。然而,先前结合视觉内容进行点击率(CTR)预测的方法图像理解能力有限,且难以融合多模态特征(如下图所示)。

wKgZPGfZC_6Ab-7IAAxMtZ2hrWE346.png

此外,广告图像生成中考虑背景与商品之间的相关性至关重要。现有的强化学习算法仅专注于优化奖励值,忽视了视觉吸引力和背景相关性之间的平衡。这种疏忽可能导致背景与商品不协调,误导用户并导致糟糕的购物体验。如下图所示,虽然动态、运动风格的背景可能会提高运动鞋的点击率,但模型可能错误地将类似的背景应用于化妆品等无关商品,从而破坏视觉和谐性和商品相关性。

wKgZO2fZDACAQR5FAAZUPovqCrw046.png



二、整体方案

在本文中,我们提出了一种点击率驱动广告图像生成(CAIG)的新方法,旨在生成能够吸引用户兴趣的引人注目的广告图像,如下图所示。首先,我们在大规模多模态电商数据集上预训练多模态大语言模型(MLLM),将领域特定知识注入模型中。这为我们的提示模型(PM)和奖励模型(RM)奠定了基础。然后,我们从预训练的MLLM初始化RM,并在大量多模态在线用户点击数据上进一步训练RM,使RM能够模拟人类反馈。最后,我们引入了一个点击率驱动的偏好优化阶段,该阶段采用以商品为中心的偏好优化(PCPO)作为核心策略。该阶段利用RM的反馈对PM进行微调,最终生成既具吸引力又与商品相关的广告图像。

wKgZPGfZDAGAX6UQAAUM0QzeqXc987.png

三、电商知识预训练

为了应对高效且可扩展的广告创意生成的挑战,我们通过在大规模多模态电商数据集上进行预训练,在多模态大语言模型(MLLMs)强大功能的基础上,注入了特定于电商领域的知识。该数据集包含来自京东电商平台的120万个样本,如下表所示。具体来说,预训练任务包括三个主要任务:

(1) 图像理解:根据商品图像描述商品或背景。

(2) 多模态内容理解:根据多模态商品信息(例如标题、类别、标签)描述商品背景或生成商品标题。

(3) 提示词生成:根据多模态商品信息生成或重写提示词。

wKgZO2fZDAKAUuTTAAMHJWmakyw969.png

四、基于MLLM的reward model

为了减轻不同商品类别之间CTR绝对值变化的影响,我们将CTR预测任务重新定义为图像对之间的相对比较任务。具体来说,我们从用户点击数据中构建成对的训练样本,每对样本包含同一商品的两张广告图像及其对应的CTR。对于共享商品属性的图片对(I1,I2),我们首先将商品属性与RM特定的问题模板Q_RM结合,使用提示工程函数f_instruct生成一个指令提示C_RM。然后将两张图像的视觉表征与文本表征连接起来,形成多模态输入。

wKgZPGfZDAOATO6lAAAsWM05fZ0846.png

接下来,我们使用大语言模型(LLM)处理多模态输入,生成隐藏状态H。按照使用LLM进行序列分类的常规做法,我们利用H的最后一个token作为判别性表示,捕捉整个输入序列的上下文信息。最后我们使用一个分类头FC_cls,将最后一个token 映射到一个二维概率分布p上。此外,为了使模型能够在复合图像中对左图和右图的CTR进行精细的预测,我们引入了一个点级别的损失函数,通过一个独立的CTR回归分支来实现。最终,RM的损失函数是二元交叉熵损失和点级别损失的组合:

wKgZO2fZDAOAJ33LAAASQBGF5QQ540.png



五、CTR驱动优化

为了生成高CTR广告图像的,我们将该任务形式化为一个偏好选择问题,鼓励生成模型选择更具吸引力的广告图像, 并拒绝吸引力较低的广告图像。这一过程包含两个关键步骤:(1) 生成图像对并使用RM比较它们的CTR,(2) 根据RM的反馈对生成模型进行微调,如下算法所示。

wKgZPGfZDASABWleAALbBUxLDMA922.png

为了生成广告图像,我们将PM生成的背景描述词输入Stable Diffusion,并使用ControlNet的inpaint操作来为商品生成背景。考虑到收集真实CTR反馈耗时且资源需求大,我们利用RM实时区分更具吸引力的和吸引力较低的图像,以微调生成流程。这里我们采用直接偏好优化(DPO) 作为基本策略,该过程可表示为:

wKgZO2fZDAWAcxU9AABfAcelww0112.png

其中I_o和C表示商品的原始图形和对应的指令。

值得注意的是,在DPO训练过程中过度关注CTR优化可能会忽略偏好数据中的商品信息,导致生成图像中前景和背景不匹配。因此,我们引入了以商品为中心的偏好优化(PCPO)。PCPO的核心机制是在训练过程中将商品信息作为唯一变量,并构建额外的偏好数据对,从而鼓励模型生成与商品特征相匹配的背景描述。具体来说,给定一个商品图像I_o和指令C,我们构建偏好数据对 (I_o, y^+, y^-) ,其中y^+是与商品特征更匹配的背景描述,而y^-则是匹配度较低的背景描述。通过这种方式,我们确保生成的背景描述不仅吸引人,而且与商品信息一致。PCPO的目标可写作:

wKgZPGfZDAaAfHI9AABnbAlCm_I255.png

最终,DPO和PCPO损失被用于联合优化模型。



六、实验结果

(1)Reward Model性能

我们在商业和公开数据集上进行了广泛的实验,将我们的方法与各种基于多模态大语言模型(MLLM)的开源和闭源模型进行了比较。如下图所示,现有的闭源模型(如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V)在比较广告图像CTR方面表现不佳,准确率接近随机水平(约50%的配对准确率),这表明这些模型尽管在通用任务上表现出色,但在广告CTR任务中并未得到专门优化。开源模型如VAM和CG4CTR虽然有所改进,但由于其视觉表示能力较弱且无法有效整合多模态信息,表现仍然有限。相比之下,我们提出的方法在商业和公开数据集上均取得了最先进的性能。

wKgZPGfZDAeAXUi_AAFjIhFJogg694.png

(2)商品-背景相关性

为了确保公平比较,我们在CTR驱动优化过程中使用相同的RM进行CTR反馈,并且训练轮数相同,来评估PCPO与标准DPO的性能。下图展示了两种方法在训练过程中的表现。值得注意的是,标准DPO在训练5个epoch后,匹配率显著下降,从0.842降至0.597。而我们的PCPO则表现出更为平缓的下降趋势,在第5个epoch时保持了0.798的匹配率,这比标准DPO在同一阶段的表现高出33.7%。

wKgZO2fZDAiAEjT1AAGW5miBwLM975.png

下图为我们的方案与DPO方案对比的定性分析:

wKgZO2fZEbKAYP5wAAt19jY2MjE946.png

(3)线上实验

为了验证我们提出的CAIG方法在提高生成广告图像CTR方面的有效性,我们在推荐广告上进行了一周的在线实验。我们为44个类目的商品生成了两张图像,这些类目几乎涵盖了所有常见的商品,远超之前方法仅覆盖的五个类目。我们在下表中报告了不同方法在所有类目和五个常见类目中的结果,其中CTR的提升是相对于直接使用预训练的MLLM而言的。我们的RM在所有类目和五个常见类目中均优于之前的方法,证明了更准确的CTR预测能够驱动生成模型产生CTR更高的图像。我们还比较了仅使用DPO作为优化算法的效果,结果表明使用我们的PCPO可以使生成模型更加关注商品特征,从而提高CTR。

wKgZO2fZDAyASRBMAAEoSH7f6fU324.png

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38120

    浏览量

    296668
  • DPO
    DPO
    +关注

    关注

    0

    文章

    16

    浏览量

    13825
  • 京东
    +关注

    关注

    2

    文章

    1066

    浏览量

    49888
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高格欣壁挂广告机:新零售连锁的品牌实力“放大器”

    当新零售连锁进入“体验制胜”的时代,终端展示设备已不再是简单的广告载体,更成为品牌实力的直观名片。深圳市高格欣科技的壁挂广告机,凭借工业级品质、智能交互能力与场景适配性,正成为连锁品牌破局流量困境
    的头像 发表于 11-22 17:03 403次阅读
    高格欣壁挂<b class='flag-5'>广告</b>机:新<b class='flag-5'>零售</b>连锁的品牌实力“放大器”

    理想汽车首个海外零售中心正式开业

    近日,理想汽车海外首家授权零售中心——乌兹别克斯坦首都塔什干零售中心正式开业,面向当地市场主要销售三款增程电动产品理想L9、理想L7和理想L6。区别于国内的直营销售,理想汽车海外销售目前采取授权
    的头像 发表于 10-14 16:25 423次阅读

    智慧零售全面爆发,BLE芯片趁势而起

     2025年,全球智慧零售市场预计突破1.2万亿美元,年均增速约15%,其中亚太地区(以中国为主)占全球市场的40%以上。中国市场规模预计达到8500亿元人民币,占全球的35%,年均增速20%,领先
    的头像 发表于 09-19 16:20 424次阅读
    智慧<b class='flag-5'>零售</b>全面爆发,BLE芯片趁势而起

    高格欣广告机:重构商业领域新零售消费链路的 “智能营销枢纽”

    不知你是否留意到,商业零售领域正经历着大变革,越来越多的数字化新零售体系在逐步取代传统的商业模式,显示与智能交互功能为一体的显示设备终端,已成为推动新零售发展的关键力量,从根本上重塑了购物体验与商业
    的头像 发表于 08-29 17:26 584次阅读
    高格欣<b class='flag-5'>广告</b>机:重构商业领域新<b class='flag-5'>零售</b>消费链路的 “智能营销枢纽”

    零售行业出海数据回流,如何选择SDWAN

    >全球零售网络的扩张正面临关键转折点:**数据回流的效率与安全**,已成为出海企业增长的核心瓶颈,而SD-WAN技术正通过智能化的网络重构,成为破局的关键利器。随着零售企业加速全球化布局
    的头像 发表于 08-21 14:09 1236次阅读
    <b class='flag-5'>零售</b>行业出海数据回流,如何选择SDWAN

    京东零售在智能供应链领域的前沿探索与技术实践

    近日,“智汇运河 智算未来”2025人工智能创新创业大会在杭州召开。香港工程科学院院士、香港大学副校长、研究生院院长、讲座教授、京东零售供应链首席科学家申作军教授与供应链算法团队技术总监戚永志博士
    的头像 发表于 08-04 16:10 819次阅读
    <b class='flag-5'>京东</b><b class='flag-5'>零售</b>在智能供应链领域的前沿探索与技术实践

    融智兴科技:RFID超高频零售标签解析

    融智兴科技推出的RFID超高频零售标签,专为零售场景高频次、多品类、快速周转而设计,具备远距离群读、批量写入、耐环境干扰等特点,并通过了ARC(Auburn RFID Lab)认证,满足沃尔玛、山姆会员店等全球零售巨头的标准。
    的头像 发表于 07-30 16:32 584次阅读
    融智兴科技:RFID超高频<b class='flag-5'>零售</b>标签解析

    RFID零售标签:革新服装和鞋类库存管理

    率先部署 RFID 的企业,已经开始收获成效;而行动迟缓的企业,可能将无可挽回地被智能零售时代甩在身后。
    的头像 发表于 06-05 17:11 437次阅读
    RFID<b class='flag-5'>零售</b>标签:革新服装和鞋类库存管理

    京东零售数据资产能力升级与实践

    作者:京东零售 韩雷钧 开篇 京东自营和商家自运营模式,以及伴随的多种运营视角、多种组合计算、多种销售属性等数据维度,相较于行业同等量级,数据处理的难度与复杂度都显著增加。如何从海量的数据模型与数据
    的头像 发表于 02-21 09:50 797次阅读
    <b class='flag-5'>京东</b><b class='flag-5'>零售</b>数据资产能力升级与实践

    熵基云联入选《零售媒体化专项研究报告》

    近日,备受行业关注的《零售媒体化专项研究报告(2024年)》由中国连锁经营协会(CCFA)权威发布。在该报告中,熵基科技旗下的智慧零售全新商业品牌——熵基云联,凭借其卓越的创新性智慧零售解决方案
    的头像 发表于 02-17 11:17 811次阅读

    NVIDIA推出AI零售购物助手蓝图

    NVIDIA 于近日发布了用于零售购物助手的 NVIDIA AI Blueprint,这个生成式 AI 参考工作流旨在变革网购和实体店购物的体验。
    的头像 发表于 01-14 11:17 1020次阅读

    元太科技E Ink Spectra 6彩色电子纸 全系列于2025 NRF 零售大展盛大展出

    扬州2025年1月13日 /美通社/ -- 全球电子纸领导厂商E Ink元太科技今(13)日宣布,全系列适用于零售的E Ink Spectra™ 6全彩电子纸产品,包含最新的广告牌与电子价签
    的头像 发表于 01-14 09:32 793次阅读

    物联网如何改变零售行业

    零售商深知,节日的热闹气氛让顾客们忙着寻找完美的礼物和抓住年终优惠。这一直是公司最繁忙的时期之一,客流量和销售额大幅增加。为应对激增的需求,零售商正转向引入物联网(IoT)技术,以通过智能零售
    的头像 发表于 01-14 09:27 1202次阅读

    如何使用蓝牙技术优化零售空间的运营方式

    近日,蓝牙技术联盟高级营销项目经理Mindy Dolan有机会采访到了高通技术公司副总裁兼零售物联网全球负责人Art Miller,探讨了如何使用蓝牙技术优化零售空间的运营方式。
    的头像 发表于 12-30 10:32 1372次阅读

    【「大模型启示录」阅读体验】营销领域大模型的应用

    调整广告创意和文案等。通过持续优化广告策略,大模型可以提高广告的效率和投资回报率,为企业创造更大的经济效益。 大模型可以根据消费者的多种特征和行为数据,进行精细的客户细分。这种细分能力使企业能够更有
    发表于 12-24 12:48