0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一键抹去瑕疵、褶皱:深入解读达摩院高清人像美肤模型ABPN

OpenCV学堂 来源:机器之心 2023-01-09 14:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着数字文化产业的蓬勃发展,人工智能技术开始广泛应用于图像编辑和美化领域。其中,人像美肤无疑是应用最广、需求最大的技术之一。传统美颜算法利用基于滤波的图像编辑技术,实现了自动化的磨皮去瑕疵效果,在社交、直播等场景取得了广泛的应用。 然而,在门槛较高的专业摄影行业,由于对图像分辨率以及质量标准的较高要求,人工修图师还是作为人像美肤修图的主要生产力,完成包括匀肤、去瑕疵、美白等一系列工作。通常,一位专业修图师对一张高清人像进行美肤操作的平均处理时间为 1-2 分钟,在精度要求更高的广告、影视等领域,该处理时间则更长。 
相较于互娱场景的磨皮美颜,广告级、影楼级的精细化美肤给算法带来了更高的要求与挑战。一方面,瑕疵种类众多,包含痘痘、痘印、雀斑、肤色不均等,算法需要对不同瑕疵进行自适应地处理;另一方面,在去除瑕疵的过程中,需要尽可能的保留皮肤的纹理、质感,实现高精度的皮肤修饰;最后也是十分重要的一点,随着摄影设备的不断迭代,专业摄影领域目前常用的图像分辨率已经达到了 4K 甚至 8K,这对算法的处理效率提出了极其严苛的要求。 因此,我们以实现专业级的智能美肤为出发点,研发了一套高清图像的超精细局部修图算法 ABPN,在超清图像中的美肤与服饰去皱任务中都实现了很好的效果与应用。

81c2e20e-8fd8-11ed-bfe3-dac502259ad0.png

论文:https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf

模型 &代码:https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/summary

相关工作3.1 传统美颜算法 传统美颜算法的核心就是让皮肤区域的像素变得更平滑,降低瑕疵的显著程度,从而使皮肤看起来更加光滑。一般来说,现有的美颜算法可划分为三步:1)图像滤波算法,2)图像融合,3)锐化。整体流程如下:


81db6dce-8fd8-11ed-bfe3-dac502259ad0.png

其中为了实现皮肤区域的平滑,同时保留图像中的边缘,传统美颜算法首先使用保边滤波器(如双边滤波、导向滤波等)来对图像进行处理。不同于常用的均值滤波、高斯滤波,保边滤波器考虑了不同区域像素值的变化,对像素变化较大的边缘部分以及变化较为平缓的中间区域像素采取不同的加权,从而实现对于图像边缘的保留。而后,为了不影响背景区域,分割检测算法通常被用于定位皮肤区域,引导原图与平滑后的图像进行融合。最后,锐化操作可以进一步提升边缘的显著性以及感官上的清晰度。下图展示了目前传统美颜算法的效果:


81ff4ffa-8fd8-11ed-bfe3-dac502259ad0.png

原图像来自 unsplash [31] 
从效果来看,传统美颜算法存在两大问题:1)对于瑕疵的处理是非自适应的,无法较好的处理不同类型的瑕疵。2)平滑处理造成了皮肤纹理、质感的丢失。这些问题在高清图像中尤为明显。3.2 现有深度学习算法 
为了实现皮肤不同区域、不同瑕疵的自适应修饰,基于数据驱动的深度学习算法似乎是更好的解决方案。考虑任务的相关性,我们对 Image-to-Image Translation、Photo Retouching、Image Inpainting、High-resolution Image Editing 这四类现有方法对于美肤任务的适用性进行了讨论和对比。

3.2.1 Image-to-Image Translation

图像翻译 (Image-to-Image Translation) 任务最开始由 pix2pix [1] 所定义,其将大量计算机视觉任务总结为像素到像素的预测任务,并且提出了一个基于条件生成对抗网络的通用框架来解决这类问题。基于 pix2pix [1],各类方法被陆续提出以解决图像翻译问题,其中包括利用成对数据 (paired images) 的方法 [2,3,4,5] 以及利用非成对数据 (unpaired images)的方法 [6,7,8,9]。一些工作聚焦于某些特定的图像翻译任务(比如语义图像合成 [2,3,5],风格迁移等 [9,10,11,12]),取得了令人印象深刻效果。然而,上述大部分的图像翻译主要关注于图像到图像的整体变换,缺乏对于局部区域的注意力,这限制了其在美肤任务中的表现。

3.2.2 Photo Retouching

受益于深度卷积神经网络的发展,基于学习的方法 [13,14,15,16] 近年来在修图领域展现了出色的效果。然而,与大多数图像翻译方法相似的是,现有的 retouching 算法主要聚焦于操控图像的一些整体属性,比如色彩、光照、曝光等。很少关注局部区域的修饰,而美肤恰恰是一个局部修饰任务(Local Photo Retouching),需要在修饰目标区域的同时,保持背景区域不动。

3.2.3 Image Inpainting

图像补全 (image inpainting) 算法常用于对图像缺失的部分进行补全生成,与美肤任务有着较大的相似性。凭借着强大的特征学习能力,基于深度生成网络的方法 [17,18,19,20] 这些年在 inpainting 任务中取得了巨大的进步。然而,inpainting 方法依赖于目标区域的 mask 作为输入,而在美肤以及其他局部修饰任务中,获取精确的目标区域 mask 本身就是一个非常具有挑战性的任务。因而,大部分的 image inpainting 任务无法直接用于美肤。近年来,一些 blind image inpainting 的方法 [21,22,23] 摆脱了对于 mask 的依赖,实现了目标区域的自动检测与补全。尽管如此,同大多数其他 image inpainting 方法一样,这些方法存在两个问题:a) 缺乏对于目标区域纹理及语义信息的充分利用,b) 计算量较大,难以应用于超高分辨率图像。

3.2.4 High-resolution Image Editing

为了实现高分辨率图像的编辑,[15,24,25,26] 等方法通过将主要的计算量从高分辨率图转移到低分辨率图像中,以减轻空间和时间的负担。尽管在效率上取得了出色的表现,由于缺乏对于局部区域的关注,其中大部分方法都不适用于美肤这类局部修饰任务。
综上,现有的深度学习方法大都难以直接应用于美肤任务中,主要原因在于缺乏对局部区域的关注或者是计算量较大难以应用于高分辨率图像。基于自适应混合金字塔的局部修图框架 
美肤本质在于对图像的编辑,不同于大多数其他图像转换任务的是,这种编辑是局部的。与其相似的还有服饰去皱,商品修饰等任务。这类局部修图任务具有很强的共通性,我们总结其三点主要的困难与挑战:1)目标区域的精准定位。2)具有全局一致性以及细节保真度的局部生成(修饰)。3)超高分辨率图像处理。为此,我们提出了一个基于自适应混合金字塔的局部修图框架(ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo, CVPR2022,[27]),以实现超高分辨率图像的精细化局部修图,下面我们对其实现细节进行介绍。4.1 网络整体结构

8290b490-8fd8-11ed-bfe3-dac502259ad0.png

如上图所示,网络结构主要由两个部分组成:上下文感知的局部修饰层(LRL)和自适应混合金字塔层(BPL)。其中 LRL 的目的是对降采样后的低分辨率图像进行局部修饰,生成低分辨率的修饰结果图,充分考虑全局的上下文信息以及局部的纹理信息。进一步,BPL 用于将 LRL 中生成的低分辨率结果逐步向上拓展到高分辨率结果。其中,我们设计了一个自适应混合模块(ABM)及其逆向模块(R-ABM),利用中间混合图层 Bi,可实现原图与结果图之间的自适应转换以及向上拓展,展现了强大的可拓展性和细节保真能力。我们在脸部修饰及服饰修饰两个数据集中进行了大量实验,结果表明我们的方法在效果和效率上都大幅度地领先了现有方法。值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。下面,我们对 LRL、BPL 及网络的训练 loss 分别进行介绍。4.2 上下文感知的局部修饰层(Context-aware Local Retouching Layer) 
在 LRL 中,我们想要解决三中提到的两个挑战:目标区域的精准定位以及具有全局一致性的局部生成。如 Figure 3 所示,LRL 由一个共享编码器、掩码预测分支 (MPB) 以及局部修饰分支 (LRB) 构成。


82a9a7ac-8fd8-11ed-bfe3-dac502259ad0.png

82b82142-8fd8-11ed-bfe3-dac502259ad0.png

总得来说,我们使用了一个多任务的结构,以实现显式的目标区域预测,与局部修饰的引导。其中,共享编码器的结构可以利用两个分支的共同训练优化特征,提高修饰分支对于目标全局的语义信息和局部的感知。大多数的图像翻译方法使用传统的 encoder-decoder 结构直接实现局部的编辑,没有将目标定位与生成进行解耦,从而限制了生成的效果(网络的容量有限),相比之下多分支的结构更利于任务的解耦以及互利。在局部修饰分支 LRB 中我们设计了 LAM(Figure 4),将空间注意力机制与特征注意力机制同时作用,以实现特征的充分融合以及目标区域的语义、纹理的捕捉。消融实验(Figure 6)展现了各个模块设计的有效性。4.3 自适应混合金字塔层(Adaptive Blend Pyramid Layer) 
LRL 在低分辨率上实现了局部修饰,如何将修饰的结果拓展到高分辨率同时增强其细节保真度?这是我们在这部分想要解决的问题。

4.3.1 自适应混合模块(Adaptive Blend Module)

在图像编辑领域,混合图层(blend layer)常被用于与图像(base layer)以不同的模式混合以实现各种各样的图像编辑任务,比如对比度的增强,加深、减淡操作等。通常地,给定一张图片82e101ca-8fd8-11ed-bfe3-dac502259ad0.png,以及一个混合图层82ed1212-8fd8-11ed-bfe3-dac502259ad0.png,我们可以将两个图层进行混合得到图像编辑结果

82fe30ce-8fd8-11ed-bfe3-dac502259ad0.png

,如下:


8310bfd2-8fd8-11ed-bfe3-dac502259ad0.png

其中 f 是一个固定的逐像素映射函数,通常由混合模式所决定。受限于转化能力,一个特定的混合模式及固定的函数 f 难以直接应用于种类多样的编辑任务中去。为了更好的适应数据的分布以及不同任务的转换模式,我们借鉴了图像编辑中常用的柔光模式,设计了一个自适应混合模块 (ABM),如下:


8326d948-8fd8-11ed-bfe3-dac502259ad0.png

其中8337e648-8fd8-11ed-bfe3-dac502259ad0.png表示 Hadmard product,834c50f6-8fd8-11ed-bfe3-dac502259ad0.png835ed23a-8fd8-11ed-bfe3-dac502259ad0.png为可学习的参数,被网络中所有的 ABM 模块以及接下来的 R-ABM 模块所共享,

836ea3fe-8fd8-11ed-bfe3-dac502259ad0.png

表示所有值为 1 的常数矩阵。


4.3.2 逆向自适应混合模块(Reverse Adaptive Blend Module)

实际上,ABM 模块是基于混合图层 B 已经获得的前提假设。然而,我们在 LRL 中只获得了低分辨率的结果8382a73c-8fd8-11ed-bfe3-dac502259ad0.png,为了得到混合图层 B,我们对公式 3 进行求解,构建了一个逆向自适应混合模块 (R-ABM),如下:
  

83918306-8fd8-11ed-bfe3-dac502259ad0.png

总的来说,通过利用混合图层作为中间媒介,ABM 模块和 R-ABM 模块实现了图像 I 和结果 R 之间的自适应转换,相比于直接对低分辨率结果利用卷积上采样等操作进行向上拓展(如 Pix2PixHD),我们利用混合图层来实现这个目标,有其两方面的优势:1)在局部修饰任务中,混合图层主要记录了两张图像之间的局部转换信息,这意味着其包含更少的无关信息,且更容易由一个轻量的网络进行优化。2)混合图层直接作用于原始图像来实现最后的修饰,可以充分利用图像本身的信息,进而实现高度的细节保真。


839f1df4-8fd8-11ed-bfe3-dac502259ad0.png

实际上,关于自适应混合模块有许多可供选择的函数或者策略,我们在论文中对设计的动机以及其他方案的对比进行了详细介绍,这里不进行更多的阐述了,Figure 7 展示了我们的方法和其他混合方法的消融对比。
 4.3.3 Refining Module

846808ae-8fd8-11ed-bfe3-dac502259ad0.png

4.4 损失函数

847da9ac-8fd8-11ed-bfe3-dac502259ad0.png

实验结果5.1 与 SOTA 方法对比

84cc06f6-8fd8-11ed-bfe3-dac502259ad0.png

5.2 消融实验

84e6a222-8fd8-11ed-bfe3-dac502259ad0.png

5.3 运行速度与内存消耗

84f9251e-8fd8-11ed-bfe3-dac502259ad0.png

效果展示 
美肤效果展示:


852159da-8fd8-11ed-bfe3-dac502259ad0.png

原图像来自 unsplash [31]

868799ec-8fd8-11ed-bfe3-dac502259ad0.png

原图像来自人脸数据集 FFHQ [32]

877b2ddc-8fd8-11ed-bfe3-dac502259ad0.png

原图像来自人脸数据集 FFHQ [32] 
可以看到,相较于传统的美颜算法,我们提出的局部修图框架在去除皮肤瑕疵的同时,充分的保留了皮肤的纹理和质感,实现了精细、智能化的肤质优化。进一步,我们将该方法拓展到服饰去皱领域,也实现了不错的效果,如下:

87abff3e-8fd8-11ed-bfe3-dac502259ad0.png

88170a04-8fd8-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42437
  • 自动化
    +关注

    关注

    31

    文章

    5983

    浏览量

    90641
  • 人工智能
    +关注

    关注

    1820

    文章

    50317

    浏览量

    266894

原文标题:一键抹去瑕疵、褶皱:深入解读达摩院高清人像美肤模型ABPN

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一键上货工具与API接口的深度集成:技术实现详解

    ​ 在电商运营中,高效的商品上架流程至关重要。传统手动上货耗时耗力,而 一键上货工具 结合 API接口 的自动化方案,可大幅提升效率。本文将深入解析其技术实现逻辑,并提供核心代码示例。 、API
    的头像 发表于 04-01 17:14 618次阅读
    <b class='flag-5'>一键</b>上货工具与API接口的深度集成:技术实现详解

    一键影像测量仪和全自动影像测量仪有什么区别?

    一键影像测量仪与全自动影像测量仪在操作、效率、适用工件以及功能上存在显著差异。作为国内领先的PCB测量仪器、智能检测设备专业解决方案供应商——班通科技自研有全自动影像测量仪BamtoneV系列和一键
    的头像 发表于 03-31 09:25 954次阅读
    <b class='flag-5'>一键</b>影像测量仪和全自动影像测量仪有什么区别?

    IAR荣获阿里巴巴达摩2026年度玄铁优选伙伴称号

    3月24日,由阿里巴巴达摩主办的2026玄铁RISC-V生态大会在上海盛大举行。作为全球RISC-V生态领域最具影响力的行业盛会之,本届大会汇聚了全球数百家顶尖产学研机构与技术领袖,共同围绕RISC-V架构创新、算力生态共建
    的头像 发表于 03-28 11:26 368次阅读

    阿里巴巴达摩发布新代旗舰CPU产品玄铁C950

    3月24日,阿里巴巴达摩主办的2026玄铁RISC-V生态大会在上海举行。
    的头像 发表于 03-25 14:03 484次阅读

    阿里最新消息 阿里达摩发布新型CPU 阿里国际在海外落地首个企业级Agent

    给大家带来两个阿里的最新消息: 阿里达摩发布新型CPU 据阿里达摩在公众号发布的消息,在3月24日,正在上海举行的“2026玄铁RISC-V生态大会”上,阿里
    的头像 发表于 03-24 18:08 2689次阅读

    RISC-V创新中心联合达摩玄铁发布无剑芯片设计平台定制版

    RISC-V开源芯片产业再迎新利好。今天(3月17日),在RISC-V创新中心玄铁技术应用交流会暨2026玄铁生态大会巡讲(苏州站)活动现场,RISC-V创新中心联合达摩玄铁正式发布“无剑芯片
    的头像 发表于 03-18 16:30 487次阅读

    RISC-V创新中心与达摩合作签约

    10月30日,RISC-V创新中心与达摩合作签约暨创新发展交流会在苏州市集成电路创新中心隆重举行,来自全国各地的重点企业、科研机构、行业协会、投资机构等代表出席活动,共话RISC-V产业创新发展新图景。
    的头像 发表于 11-03 15:43 1003次阅读

    告别多设备!揭秘QM系列闪测仪如何一键搞定多元检测

    QM 系列一键闪测仪作为方案核心,搭载双视野双远心镜头与 2000 万像素 CMOS 传感器,测量精度可达 ±1μm。其内置的 AI 深度学习系统经过海量工业样本训练,能一键识别 5000 个测量
    的头像 发表于 08-11 13:43 1170次阅读
    告别多设备!揭秘QM系列闪测仪如何<b class='flag-5'>一键</b>搞定多元检测

    HarmonyOS应用一键置灰指南

    一键置灰通常应用于如下场景 1. 重大悼念活动: 在国家发生重大灾难、事故或举行悼念日等特殊时期,为了表达对逝者的尊重和哀悼,许多 APP 会将界面置灰。例如,在些地震、空难等灾难事件发生后,以及
    的头像 发表于 06-27 00:08 698次阅读

    开关柜一键顺控在轨道交通领域的应用和效果

    蜀瑞创新科普:随着轨道交通行业的快速发展,对供电系统的要求也越来越高。传统的开关柜操作需要人工进行,不仅效率低下,而且存在误操作的风险。一键顺控技术的出现,解决了这问题,实现了开关柜的远程自动化控制。
    的头像 发表于 06-20 15:46 640次阅读
    开关柜<b class='flag-5'>一键</b>顺控在轨道交通领域的应用和效果

    闪测仪开机放件按一键,尺寸测量报告秒生成

    闪测仪以“开机放件按一键,尺寸报告秒生成”的简易操作模式,解决了传统测量设备操作复杂、效率低下、数据致性差等问题,提高了工业检测的效率和精度标准。
    的头像 发表于 06-13 11:43 965次阅读
    闪测仪开机放件按<b class='flag-5'>一键</b>,尺寸测量报告秒生成

    ESP8266烧录与机智云一键配网教程

    ESP8266模块因其低成本和高性能,广泛应用于智能家居和工业自动化等领域。机智云平台提供了一键配网功能,简化了设备的联网过程。本教程将详细介绍如何使用ESP8266进行烧录,并通过机智云实现一键
    的头像 发表于 05-24 11:04 2396次阅读
    ESP8266烧录与机智云<b class='flag-5'>一键</b>配网教程

    电源一键多用:POWER_ON从开机到场景指挥官!

    按键,即开关机,在结构设计上可以实现 一键多用 ——既可以有效减少结构的按键设计,也可以使整机更加简洁。 本文以Air8000核心板为例,分享POWER_ON按键功能及其硬件设计、软件demo相关内容。 最新开发资料详见: www.air8000.cn
    的头像 发表于 05-15 14:10 4384次阅读
    电源<b class='flag-5'>键</b>的<b class='flag-5'>一键</b>多用:POWER_ON从开机到场景指挥官!

    开关柜一键顺控在智能配电运管系统扮演什么角色?

    蜀瑞创新为大家科普在智能配电运管系统中,开关柜一键顺控扮演着自动化操作优化、安全效率提升的核心角色
    的头像 发表于 05-08 09:54 968次阅读
    开关柜<b class='flag-5'>一键</b>顺控在智能配电运管系统扮演什么角色?

    U盘一键制作

    在电脑维修中启动盘很重要,靠谱的u盘一键启动制作方法
    发表于 05-06 16:10 44次下载