0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种图像语义分层处理框架,可以实现像素级别的图像语义理解和操纵

DPVg_AI_era 来源:未知 作者:李倩 2018-08-27 08:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

密歇根大学和谷歌大脑的研究人员合作,提出了一种图像语义分层处理框架,可以实现像素级别的图像语义理解和操纵,在图像中任意添加、改变、移动对象,并与原图浑然一体,实现真正的“毫无PS痕迹”。

曾经,你以为下面普京×容嬷嬷那张图就称得上“毫无PS痕迹”了。

的确,用肉眼看,效果是很不错。但是,在专业的图像分析软件下,修改的痕迹一目了然。

你再看看这两张图:

不不不,这不是“找不同”,是为了让你感受一下“像素级语义分割和理解”带来的修图效果:

可能,你需要看得更清晰一点。

看好了哦,这是原图:

发现有什么不同/不自然的地方了吗?(提示:一共有7处不同)。

先别急着往下拉……

答案揭晓:

实际上,找出不同是很简单的(毕竟多了好几个东西),关键是这样像素级的改动,比原先意义上“毫无PS痕迹”增强了一大步!

无论是色调、光线还是纹理,都与原图配合得更加自然,操作起来也十分简单方便。

这多亏了密歇根大学和谷歌大脑的研究人员,他们提出了一种新的图像语义处理分层框架,首先根据图像中给定对象的边界框,学习生成像素级语义标签地图(pixel-wise semantic label maps),然后根据这个地图再生成新的图像。

因此,用户可以实现对象级的操纵,无论是改变颜色、移动位置、去除某个物体,增加新的东西,或者把原来在最前面的人物往后移一层或两层,而且与原图像自然融为一体。

操作只需要一步即可:

图像语义分层处理框架工作流程图示意:输入车道照片,输出上面有一辆车的照片

定量和定性结果分析,该方法比当前流行的Context Encoder、Pix2PixHD等效果都要高出许多。这有望掀起计算机视觉和图像处理界的巨变,难怪有人看完后在Twitter留言:

“在我两年前开始学计算机视觉时,这种技术简直是无法想象的。”“简直是科幻变成了现实!”

还有人疾呼:PS里有个功能我想在就想要!

像素级分层语义处理框架,实现图片对象自然修改

想必大家看到这个神级PS技术,对其原理应该是十分好奇了吧!接下来,小编就带着读者领略这款神技的技术奥秘!

正如上述所言,这个PS技术框架的核心就是分层图像处理。

当给出新的边界框B时,算法首先通过以B为中心、尺寸为S×S的裁剪平方窗口,提取标签映射(semantic label map)M∈RS×S×C和图像I∈RS×S×3的局部观测值。 在M,I和B上,模型通过以下过程生成操纵图像:

给定边界框B和语义标签映射M,结构生成器通过

给定操纵的标签映射M和图像I,图像生成器通过

而在分层图像处理过程中,有两个核心的关键步骤:

结构生成器(Structure Generator)

结构生成器的目标是以像素级类标签M∈RS×S×C的形式推断由B = {b,c}指定的区域的潜在结构。

结构生成器的体系结构

给定一个masked layout M和一个binary mask B,分别用于对目标的类和位置进行编码。该模型通过来自双流解码器(two-stream decoder)的输出产生M(该双流解码器对应于box整个区域中对象的二进制掩码和语义标签映射)。

图像生成器(Image Generator)

给定一张图像I和从结构生成器中获得的可操纵layout M,图像生成器输出区域内由B定义的、内容的像素级预测。

图像生成器的体系结构

给定一张masked图像I和语义layout M,该模型使用单独的编码路径对对象的视觉样式和语义结构进行编码,并产生被操纵的图像。

超越当前最好标准,从此修图随心所欲

定量评估

Ablation Study。 为了分析所提方法的有效性,对该方法的几种变体进行了Ablation Study。 首先考虑图像生成器的三个基线:

仅限于图像上下文(SingleStream-Image);

仅限于语义布局(SingleStream-Layout);

对上述两个基线的结合。

结果如下表所示:

下图显示了基线的定性比较:

定性分析

语义对象处理

通过将汽车的同一个边界框移动到图像中的不同位置来展示操作结果

从图中可以看到,当把车的边框从一边移动到另一边的时候,模型所产生的车辆外观发生了变化。有趣的是,汽车的形状、方向和外观也会根据周围区域的场景布局和阴影而改变。

在更多样化的上下文中生成的结果

该结果表明,模型在考虑上下文的情况下生成了合适的对象结构和外观。除了生成与周围环境相匹配的对象外,还可以对框架轻松地进行扩展,允许用户直接控制对象样式。

扩展式操作

用样式向量控制对象颜色

结果表明,模型成功地合成了具有指定颜色的各种对象,同时保持图像的其他部分不变。

交互式和数据驱动的图像编辑

图像编辑是该模型的关键点之一。通过添加、删除和移动对象边界框来执行交互式图像处理。 结果如下图所示:

在图像中对多对象进行处理的例子

表明该方法生成合理的语义布局和图像,可以平滑地增加原始图像的内容。除了交互式操作之外,还可以通过以数据驱动的方式对图像中的边界框进行采样来自动化操作过程。 结果如下图所示:

数据驱动的图像操作示例

室内场景数据集的实验结果

使用ADE20K数据集对卧室图像进行定性实验。 下图展示了了交互式图像处理结果。

室内图像处理的示例

由于室内图像中的对象涉及更多样化的类别和外观,因此生成与场景中的其他组件对齐的适当对象形状和纹理比街道图像更具挑战性。

可以看出,该方法生成的对象与周围环境可以保持高度一致性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112191
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42496
  • 图像分析
    +关注

    关注

    0

    文章

    82

    浏览量

    19276

原文标题:谷歌等祭出图像语义理解分割神器,PS再也不用专业设计师!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Elasticsearch7.x搜索实战

    7.x)作为业界领先的分布式搜索与分析引擎,结合大语言模型(简称大模型)的语义理解与生成能力,正在重新定义智能检索系统的边界。本文从适用角度出发,探讨这技术组合在实际场景中的价值与应用方向。(学
    发表于 05-22 10:52

    面向无位姿多视图输入的统一三维重建与语义理解框架Uni3R介绍

    在现实场景中,通常只能获取来自多个视角的RGB图像,而缺乏相机位姿、深度或点云等辅助信息。现有三维重建方法普遍存在两方面局限:是将几何重建与语义理解解耦建模,需分别训练与优化,导致系统复杂且效率
    的头像 发表于 05-15 14:34 88次阅读
    面向无位姿多视图输入的统一三维重建与<b class='flag-5'>语义理解</b><b class='flag-5'>框架</b>Uni3R介绍

    全面掌握ComfyUI系统教程|94节从入门到进阶实战清单

    系统教程:ComfyUI 实现背景替换与合成的技术架构深度解析 在生成式 AI 图像处理领域,背景替换与合成是项极具挑战性的工程任务。它不仅要求精准地剥离主体,还需要解决光影
    发表于 03-29 16:17

    多通道兼容图像采集卡:机搞定多路图像信号处理

    ,轻松实现多路图像信号的同步采集、高效传输与统一处理,彻底解决传统多路采集方案的痛点,为复杂视觉系统搭建提供高效、便捷、稳定的硬件支撑。传统多路图像采集方案中,往
    的头像 发表于 03-19 14:17 281次阅读
    多通道兼容<b class='flag-5'>图像</b>采集卡:<b class='flag-5'>一</b>机搞定多路<b class='flag-5'>图像</b>信号<b class='flag-5'>处理</b>

    RDMA设计46:RoCE v2原语功能:单边语义

    本博文主要交流设计思路,在本博客已给出相关博文约170篇,希望对初学者有用。注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP设计。 续上,为便于查看,给出表1部分表1 RoCE v2原语功能
    发表于 03-01 23:14

    EspeedGrab图像采集软件介绍(Cameralink转USB采集)

    。 28 错误图像滤除 图像源或线缆有干扰,可滤除错误只显示正确图像。 29 电脑性能优化 电脑性能较低时,可开启处理限制,有效优化电脑处理
    发表于 12-23 17:26

    RK3588采集Cameralink图像快速搭建系统办法

    对于些特种相机,在进行嵌入式开发的时候,会遇到诸如ARM+Cameralink接口的图像采集架构。下面距离介绍一种嵌入式图像采集方案。代替Dalsa采集卡,xtium等系列。也
    发表于 12-19 10:07

    Progress-Think框架赋能机器人首次实现语义进展推理

    在视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪步。导航在空间中不断展开,画面节节推进,但模型并不知道自己在自然语言指令里处于什么阶段,因此容易漂移、兜圈,或做出难以解释的决策。我们认为,引入
    的头像 发表于 12-03 09:27 517次阅读
    Progress-Think<b class='flag-5'>框架</b>赋能机器人首次<b class='flag-5'>实现</b><b class='flag-5'>语义</b>进展推理

    Cortex-M级别的转换

    、 简述 Cortex-M 里面有特权级别的概念,不同级别可以设定不同的权限,如何转换特权级别基本是本章的内容。 二、操作模式 ARM M
    发表于 11-19 07:32

    句话,多个命令同时执行,AI语音模组也能多任务处理

    、 Ai-WV02-32S   将语音识别、唤醒、语义理解等核心功能, 浓缩在颗小小的模组中。 安信可AI语音模组支持 MCP 协议(Multi Command Processing,多命令并行处理) ,让语音交互从“单线程
    的头像 发表于 10-31 14:45 774次阅读
    <b class='flag-5'>一</b>句话,多个命令同时执行,AI语音模组也能多任务<b class='flag-5'>处理</b>?

    目标追踪的简易实现:模板匹配

    、目标追踪和图像识别 般来说,提到机器视觉这个概念都会想到图像识别,比如人脸识别、文本识别等等,目标追踪这个概念在平时接触的相对比较少。但实际上,目标追踪
    发表于 10-28 07:21

    使用Otsu阈值算法将灰度图像二值化

    Otsu 算法是由日本学者OTSU于1979年提出的一种图像进行二值化的高效算法,又称“最大类间方差法”。当我们对个图象进行二值化操作的时候,需要根据项灰度阈值来判决每个
    发表于 10-28 06:49

    创龙 瑞芯微 RK3588 国产2.4GHz八核 工业开发板—视频图像处理框架

    创龙科技研发的 TL3588-EVM 评估板依托 RK3588/RK3588J SoC 强大的视频图像处理能力,可满足多场景图像应用需求。为帮助开发者全面了解其视频图像
    的头像 发表于 10-16 11:45 1874次阅读
    创龙 瑞芯微 RK3588 国产2.4GHz八核 工业开发板—视频<b class='flag-5'>图像</b><b class='flag-5'>处理</b><b class='flag-5'>框架</b>

    微店关键词搜索接口核心突破:动态权重算法与语义引擎的实战落地

    本文详解微店搜索接口从基础匹配到智能推荐的技术进阶路径,涵盖动态权重、语义理解与行为闭环三大创新,助力商家提升搜索转化率、商品曝光与用户留存,实现技术驱动的业绩增长。
    的头像 发表于 10-15 14:38 603次阅读

    HarmonyOS应用图像stride处理方案

    图像存储在内存中时,内存缓冲区可能在每行像素之后包含额外的填充字节。填充字节会影响图像在内存中的存储方式,但不会影响图像的显示方式。stride是内存中
    的头像 发表于 06-10 14:17 1420次阅读
    HarmonyOS应用<b class='flag-5'>图像</b>stride<b class='flag-5'>处理</b>方案