0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型

nlfO_thejiangme 来源:lq 2019-08-02 14:50 次阅读

时尚总在引领潮流。

人工智能、增强现实、可穿戴、虚拟试妆等技术的加持下,时尚行业特别是在线时尚行业获得了飞速的发展。为了吸引客户更多的目光、更棒的视觉体验、更好地展现商品,高清大图、模特多角度摆拍已经成了服装、箱包、鞋类、美妆等线上商家的宣传标配。在网上购物时,大家都想看看模特衣服在各种角度姿势下的样子,但是越多越全面的姿势摆拍也就意味着越大的投入。为了降低宣传成本,很多研究开始聚焦于如何合成高质量的逼真图像。

在这篇文章中来自北卡罗来纳大学、JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型,可以基于模特当前姿势,生成出其他各种不同姿势下的相同着装的新图像!也许在这样技术的帮助下,模特再也不用辛苦一分钟拍二十个动作了~

生成新姿势下的时尚图像

研究人员的主要目的在于训练一个生成模型,将模特在当前姿势上的图像迁移到其他的目标姿势上去,实现对于衣着等商品的全面展示。

这一模型主要由生成器和判别器构成,与先前工作不同的是这一模型架构中包含了两个不同的判别器!其中生成器由两个编码器构成,分别用于从图像和对应的动作关键点特征图进行编码,而解码器则用于从动作和衣着的特征中合成目标图像。对于判别器来说,除了判定生成图像是否逼真外、还需要判定动作与生成图像的连续性以保证生成图像动作的连续性和鲁棒性。

模型的主要架构,生成器的编码器包含了对于图像的编码器Ei和对动作的编码器Ep,基于U-Net和bi-LSTM共同构建而成,而两个判别器分别用于判定图像的真伪并保证生成图像与动作间的连续性。

时尚图像生成器

生成器中主要包含了两个编码器和一个解码器用于处理图像和对应姿势,生成器探索了输入图像的视觉语义特征和位姿信息,并生成对应姿势下的新图像。图像编码器:图像编码器的目标是从单张或多张图像中湖区语义编码信息。研究人员首先使用了ResNet作为主干网络抽取不同尺度的特征,包括纹理、颜色、边缘线条信息等。随后将这些特征输入到双边长短时记忆网络(bc-LSTM)中用于从相同衣着不同视角的模特图像中抽取共同的特征,将不同种类的图像特征进行转换,同时对不同特征下的背景和噪声进行处理。最终得到了可以表达图像视觉语义信息的编码Ci,用于后续图像的生成。位姿编码器:模型同时需要位姿数据来为生成图像进行引导,研究人员利用了18个关键点来表示人体位姿,用不同颜色的直线相连并以RGB的格式进行表示。通过U-Net的架构和3*3的卷积从位姿图中抽取高层次语义特征Cp并在解码过程中通过跳接层连接进行特征共享。解码器:其主要目的是通过图像编码Ci 和动作编码Cp重建出逼真的图像。首先将图像编码与位姿编码的编码拼接在一起,并基于U-Net架构和跳接层将视觉语义信息与动作编码信息匹配起来,进行有效的图像生成。判别器:其主要目标是引导模型生成比先前模型更逼真图像。在训练过程中研究人员利用两个判别器来同时进行对抗训练,主要采用了与PatchGAN类似的实现。其中Di用于判别生成图像是否逼真,与先前的模型类似;而Dp则用于判定生成图像与对应动作的连续性。Dp的输出是真实图像与对应位姿和这一位姿下生成的图像,用于判定图像是否与位姿匹配,它对于生成与位姿对应的时尚图像具有重要的作用,能帮助网络生成更为复杂的动作姿势,同时保持连续性和鲁棒性。

结果展示

通过DeepFashion和Market-1501数据的训练后研究人员得到了不错的结果。

Deep Fasion 数据集

Market-1501数据集

生成的结果与先前方法的比较,其中S和M代表了单张和多张图像输入的生成结果:

在数据集上的表现还不错,从源图像生成了新的姿势:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40156
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40041
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47681

原文标题:从姿势到图像——基于人体姿势引导的时尚图像生成算法

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种电子系统测试性模型研究

    和可用性有很大影响。在对测试性建模理论进行研究的基础上,借鉴多信号流图模型和eXpress信息模型,提出了一种适合电子系统的测试性
    发表于 04-22 11:28

    美国普渡大学和哈佛大学的研究人员出了项新发明 新...

    据物理学家组织网报道,美国普渡大学和哈佛大学的研究人员出了项极为应景的新发明:一种外形如同颗圣诞树
    发表于 02-03 20:30

    一种基于图像平移的目标检测框架

    集。本文提出了一种基于图像平移的目标检测框架,以解决在不利条件下目标检测精度下降的问题。我们提出利...
    发表于 08-31 07:43

    一种参数自调节优化控制策略

    和频率波动的问题,该文提出一种参数自调节优化控制策略。首先,建立VSG双机并联系统的小信号模型,分析转动惯量及阻尼系数对输出有功特性的影响;其次,在满足系统动稳态性能的转动惯量及阻尼系数限定取值范围内,根据...
    发表于 09-09 09:08

    为什么生成模型值得研究

    1.Why study generative modeling? 人们可能很自然地想知道为什么生成模型值得研究,尤其是那些只能够生成数据而不能提供密度函数估计的
    发表于 09-15 06:03

    探索一种降低ViT模型训练成本的方法

    (1 GPU)和时间(24小时)资源下从头开始训练ViT模型。首先,提出了一种向ViT架构添加局部性的有效方法。其次,开发了一种新的图像大小
    发表于 11-24 14:56

    研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列

    研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列,成功将电子皮肤的探测能力扩展到7种,实现温度、湿度、紫外光、磁、应变、压力和接近等多种外界刺激的实时同步监测。
    的头像 发表于 01-24 15:15 6917次阅读
    <b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b><b class='flag-5'>一种</b>柔性可拉伸扩展的多功能集成传感器阵列

    特伦托大学与Inria合作:使用GAN生成人体的新姿势图像

    使用GAN(对抗生成网络)生成人体的新姿势图像研究人员提出的可变形跳跃连接和最近邻损失函数,更
    的头像 发表于 01-29 16:34 9184次阅读
    特伦托大学与Inria合作:使用GAN<b class='flag-5'>生成</b>人体的新<b class='flag-5'>姿势</b><b class='flag-5'>图像</b>

    研究人员提出了一系列新的点云处理模块

    为了探索这些问题的解决办法、来自伦敦大学学院的研究人员提出了一系列新的点云处理模块,从效率、信息共享和点云卷积操作等方面进行了研究,得到了更宽、更深、更快效率更高的点云处理网络,让更深的点云深度学习
    的头像 发表于 08-02 14:44 2758次阅读
    <b class='flag-5'>研究人员</b>们<b class='flag-5'>提出了</b>一系列新的点云处理模块

    Facebook的研究人员提出了Mesh R-CNN模型

    这一研究的目标是通过单张图像输入,对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格,并对真实世界中的复杂模型进行有效处理。在2D深度网络的基础上,
    的头像 发表于 08-02 15:51 3601次阅读
    Facebook的<b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b>Mesh R-CNN<b class='flag-5'>模型</b>

    研究人员出了一种新的基于深度学习的策略

    苏黎世联邦理工学院的研究人员最近推出了一种新的基于深度学习的策略,该策略可以在不需要大量真实数据的情况下在机器人中实现触觉传感。在arXiv上预先发表的一篇论文中概述了他们的方法,该方法需要完全在模拟数据上训练深度神经网络。
    的头像 发表于 03-26 15:47 2415次阅读

    研究人员开发出了一种称为LB-WayPtNav-DH的机器人导航新框架

    加州大学伯克利分校的研究人员最近开发了一种新的框架,该框架可以增强办公室,房屋或博物馆等室内环境中人类的机器人导航能力。他们的模型在arXiv上预先发表的一篇论文中提出,并在称为Hum
    发表于 04-09 11:18 871次阅读

    基于生成式对抗网络的端到端图像去雾模型

    针对现有图像去雾算法严重依赖中间量准确估计的问题,提出了一种基于 Wasserstein生成对抗网络(wGAN)的端到端图像去雾
    发表于 04-12 15:03 20次下载
    基于<b class='flag-5'>生成</b>式对抗网络的端到端<b class='flag-5'>图像</b>去雾<b class='flag-5'>模型</b>

    MIT研究人员提出了一种制造软气动执行器的新方法

    麻省理工学院 (MIT) 的研究人员创造了一种新的制造技术,可以制造出更具成本效益的软气动执行器。
    的头像 发表于 05-06 16:38 1303次阅读
    MIT<b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b><b class='flag-5'>一种</b>制造软气动执行器的新方法

    生成式 AI 研究通过引导图像结构控制为创作者赋能

    新的研究正在通过一个文本引导图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了
    的头像 发表于 07-24 19:30 363次阅读