0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

杜克大学的研究团队研发了一个AI图像生成模型PULSE

倩倩 来源:雷锋网 2020-07-16 11:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,杜克大学的研究团队研发了一个AI图像生成模型PULSE。PULSE可以在5秒钟内将低分辨率的人像转换成清晰、逼真的人像。要指出的是,PULSE所做的工作并不是把输入的低分辨率人像变成一张高分辨率的人像,而是“一对多”地输出许多张面部细节各不相同的高分辨率人像。比如,用户输入一张16*16分辨率的图像,PULSE可输出一组1024*1024分辨率的图像。

这项研究于本月在计算机视觉与模式识别顶会CVPR 2020上发表,论文标题为《PULSE:通过对生成模型的潜在空间探索实现自监督照片上采样(PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models)》。

论文链接:https://drive.google.com/file/d/1fV7FsmunjDuRrsn4KYf2Efwp0FNBtcR4/view

PULSE项目官网:http://pulse.cs.duke.edu/

GitHub:https://github.com/adamian98/pulse

一、PULSE:能为天文学/医学提供参考

在好莱坞间谍电影中,肩负拯救世界重任的特工常常采用高科技手段、把一张模糊的凶犯照片还原成清晰的人脸照片。现实中,许多研究人员致力于用AI技术使电影中的炫酷场景成真。但是,现有AI模型的性能普遍较差,生成的人脸图像往往与照片主人公的真实长相并不相似。

杜克大学计算机科学专业教授Cynthia Rudin指出,这是因为低像素图像中的信息较少,AI模型无法准确地“补足”缺失信息、进而还原出清晰人脸图像。因此,用AI技术对模糊人像进行面部识别十分困难。

Rudin团队认为,虽然不能用于模糊人像的面部识别,但是这类AI模型可以作为一种分类和探索工具,用于天文学、医学等难以获得清晰图像的领域。也就是说,基于模糊图像中缺失信息的各种可能性,AI模型可以生成许多清晰的图像,生成的多种图像可以为天文学、医学等领域研究人员提供参考。

基于这种设想,杜克大学研究人员研发了基于生成式对抗网络(GAN)的图像超分辨率模型PULSE。PULSE模型基于NVIDIA的StyleGAN算法进行开发。

二、降尺度损失方法:用生成图像“倒推”模糊图,相似才能输出

为了保证输出图像与输入图像的“对应性”,研究人员在PULSE模型中应用了一种“降尺度损失(downscaling loss)”方法。

当PULSE模型的生成网络提议以一张清晰图像作为输出时,判别网络会把这张清晰图像的分辨率降低到与输入图像相等的水平。然后,判别网络会对比降尺度损失图像与输入图像之间的相似性。

只有在降尺度损失图像与输入图像相似性较高时,判别网络才会判定生成网络提议的清晰图片可以作为输出。

▲基于同一张模糊的图像,PULSE可以生成面部细节不同的清晰图像

三、40位评估者参与打分,PULSE模型MOS得分最高

研究人员用高分辨人脸数据集CelebA HQ评估PULSE的性能。为了进行对比,研究人员利用CelebA HQ数据集训练了监督模型BICBIC、FSRNET和FSRGAN。

所有模型均以16*16分辨率的图像作为输入,BICBIC、FSRNET和FSRGAN模型以128*128分辨率图像作为输出,PULSE模型以128*128分辨率图像和1024*1024分辨率图像作为输出。

评估结果显示,图像质量方面,PULSE模型在生成眼睛、嘴唇等图像细节方面的能力优于其他模型。

▲PULSE生成图像的嘴唇、眼睛更加清晰

接下来,研究人员用平均意见分数(MOS)测试来定量评估模型的分辨率。研究人员应用6个模型生成128*128分辨率的图像,邀请40位评估者对6个模型的输出结果进行打分。

用于对比的模型分别是:HR、Nearest、Bicubic、FSRNet、FSRGAN。

结果显示,PULSE的MOS分数最高,为3.60,即评估者认为PULSE模型生成的图像分辨率最高。

结语:代码已在GitHub开源,用户担忧种族偏见

本项研究中,杜克大学研发的PULSE模型能够基于一张模糊的人像,生成多张面部细节不同的清晰人像,为使用者提供一个可能的参考范围。目前,研究团队已将模型代码在GitHub开源,鼓励其他开发者进行实验。

研究人员称,在未来,PULSE或可被用于天文学、医学等领域。比如,一位天文学研究人员可以输入一张模糊的黑洞图像,并获得许多可能的天体照片。

同时,也有人对PULSE的种族偏见问题表示担忧。有Twitter用户爆料称,其在PULSE模型中输入深肤色种族(比如奥巴马的照片)的人脸照片后,PULSE输出了白人的照片。研究人员称,目前他们正尝试通过引入更广泛的数据集解决这一问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42158
  • 面部识别
    +关注

    关注

    1

    文章

    375

    浏览量

    27644
  • ai技术
    +关注

    关注

    1

    文章

    1313

    浏览量

    25599
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其
    的头像 发表于 11-30 09:28 209次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和关联性 AI驱动科学:研究和模拟人类思维和认识过程。 本章节作者为我们讲解了第五范式,介绍了科学发现的般方法和流程等。、科学发现的5
    发表于 09-17 11:45

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    1. 项目概述 本项目旨在开发并部署高精度的深度学习模型,用于自动鉴别张图片是由AI生成
    发表于 08-21 13:59

    NVIDIA RTX AI加速FLUX.1 Kontext系列图像模型

    Black Forest Labs,作为全球顶尖 AI 研究实验室之,为图像生成领域带来颠覆性变革。
    的头像 发表于 08-05 16:27 1013次阅读
    NVIDIA RTX <b class='flag-5'>AI</b>加速FLUX.1 Kontext系列<b class='flag-5'>图像</b><b class='flag-5'>模型</b>

    谷歌新生成AI媒体模型登陆Vertex AI平台

    我们在 Vertex AI 上推出新生成AI 媒体模型: Imagen 4、Veo 3 和 Lyria 2。
    的头像 发表于 06-18 09:56 887次阅读

    利用NVIDIA 3D引导生成AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型生成手指过多的人类图像,到现在能创造出令人惊叹的逼
    的头像 发表于 06-05 09:24 737次阅读

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 943次阅读

    文详解视觉语言模型

    视觉语言模型(VLM)是种多模态、生成AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3241次阅读
    <b class='flag-5'>一</b>文详解视觉语言<b class='flag-5'>模型</b>

    字节豆包大模型团队成立AGI长期研究团队Seed Edge

     据1月24日的报道,字节跳动旗下的豆包大模型团队已悄然组建了专注于通用人工智能(AGI)的长期研究
    的头像 发表于 01-24 15:03 2019次阅读

    两大AI模型性能提升 登上国际榜单

    近日,由盛大AI团队研发模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-
    的头像 发表于 01-16 12:01 1175次阅读
    两大<b class='flag-5'>AI</b><b class='flag-5'>模型</b>性能提升 登上国际榜单

    胡瀚接棒腾讯多模态大模型研发

    腾讯的杰出科学家和混元大模型技术团队的核心成员,曾在推动腾讯在人工智能领域的发展中发挥了重要作用。然而,去年11月,有消息称刘威已从腾讯离职,这消息引发了业界对于腾讯
    的头像 发表于 01-09 15:49 983次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3
    的头像 发表于 01-03 10:38 1338次阅读
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>

    Google两款先进生成AI模型登陆Vertex AI平台

    新的 AI 模型,包括最先进的视频生成模型Veo以及最高品质的图像生成
    的头像 发表于 12-30 09:56 979次阅读

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    (VLM)是种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示,并通过复杂的推理过程,实现对这些信息的准确理
    的头像 发表于 12-13 10:51 959次阅读

    巨人网络发布“千影QianYing”有声游戏生成模型

    模型YingSound。 YingGame是巨人网络AI Lab与清华大学SATLab携手研发的成果,专为开放世界游戏设计。该模型首次实现
    的头像 发表于 12-13 09:59 1108次阅读