英伟达的StyleGAN仅需小样本就可以做到图像到图像的转换！-电子发烧友网

前一阵子英伟达的StyleGAN可谓是火了一把，近日又出大招了！以往图像到图像转换需要大量的图像做训练样本，但是在英伟达的这项工作中，仅需小样本就可以做到图像到图像的转换(代码已开源)！

小样本，大成就！

当我们看到一只站着的老虎时，我们很容易想象出来它躺着的样子。

这是因为我们根据其它动物平躺的姿势就是可以做联想。

然而，对于机器来说就没有这么简单了。在现存的非监督图像到图像转换模型需要大量的训练图像。

不仅如此，一个模型能够转换图像的另一个前提是图像中的对象必须在训练集中存在。

近期，英伟达、康纳尔大学和阿尔托大学联合发表了一篇文章——小样本(few-shot)非监督图像到图像转换。

论文地址：

https://arxiv.org/pdf/1905.01723.pdf

简单来说，就是输入一只金毛，在训练过程当中，即便第一次看到一种新动物，也能让它像金毛那样吐舌头、闭嘴巴、歪头。

若是输入一张炒面的图，该模型也可以让其它食物变成炒面。

这项工作还提供了在线测试，新智元小编们便拿自家的猫主子“西瓜”和“多比”做了一下测试：

输入“西瓜”得到的结果

输入“多比”得到的结果

在线测试连接如下，读者们快快玩起来吧：

https://nvlabs.github.io/FUNIT/petswap.html

该项目的代码也已开源，地址如下：

https://github.com/NVlabs/FUNIT

FUNIT：2阶段图像转换，非常有趣！

我们提出的FUNIT框架旨在通过利用在测试时可用的几个目标类图像，将源类的图像映射到目标类的类似图像。

为了训练FUNIT，我们使用来自一组对象类(例如各种动物物种的图像)中的图像，称为源类(source classes)。我们不假设任何两个类之间存在配对的图像(即，不同物种的任何两个动物都不会是完全相同的姿势)。

我们使用源类里的图像来训练一个multi-class无监督图像到图像转换模型。

在测试过程中，我们从一个称为目标类(target class)的新对象类中提供少量几张图像。模型必须利用少量的目标图像来将源类里的任何图像转换为目标类里的类似图像。

图1

训练。训练集由各种对象类(源类)的图像组成。我们训练了一个模型在这些源对象类之间转换图像。

部署。我们向训练模型显示极少量目标类里的图像，这就足以将源类的图像转换为目标类的类似图像了，即使模型在训练期间从未见过目标类的任何图像。

需要注意的是，FUNIT生成器有两个输入：1)一个内容图像；2)一组目标类图像。它的目的是生成与目标类图像相似的输入图像的转换。

我们的框架由一个有条件的图像发生器G和一个多任务对抗性鉴别器D组成。

与现有无监督image-to-image translation框架中有条件的图像生成器不同，它们是将一张图像作为输入，而我们的生成器G需要同时将一张内容图像x和一组K类图像{y1, ..., yK}作为输入，生成输出图像x¯，公式如下：

实验结果：姿态和种类一起转换，超越基准模型

主要结果

如表1所示，FUNIT框架在Animal Faces和North American Birds两个数据集的所有性能指标都优于用于小样本无监督图像到图像转换任务的基线模型。

FUNIT在Animal Faces数据集的1-shot和5-shot设置上分别达到82.36和96.05 的Top-5 测试精度，以及在North American Birds数据集上分别达到60.19和75.75的Top-5 测试精度。

这些指标都明显优于相应的基准模型。

表1：FUNIT与基线模型的性能比较。↑表示数值越大越好，↓表示越小越好。

在图2中，我们对FUNIT-5计算的few-shot translation的结果进行了可视化。

图2：无监督图像-图像转换结果的可视化。计算结果采用FUNIT-5模型。

从上到下分别是来自动物面孔、鸟、花和食物数据集的结果。每个示例随机展示了2张目标类中的图像，输入内容图像x，以及转换后的输出图像x¯。

结果表明，模型能够成功地将源类的图像转换为新的类中的相似图像。对象在输入内容图像x和相应输出图像x¯中的姿态基本保持不变。输出图像也非常逼真，类似于目标类中的图像。

图3提供FUNIT与基线模型的结果比较。可以看到，FUNIT生成了高质量的图像转换输出。

图3：小样本图像到图像转换效果的比较。

从左到右的列分别是输入内容图像x，两个输入目标类图像y1，y2，来自不公平的StarGAN基线的转换结果，来自公平的StarGAN基线的转换结果，以及来自FUNIT框架的结果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40041
代码

代码

+关注

关注
30

文章
4555

浏览量
66750
英伟达

英伟达

+关注

关注
22

文章
3327

浏览量
87760

原文标题：一图生万物！英伟达推超强图像转换神器，小样本一秒猫变狗

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

【Longan Pi 3H 开发板试用连载体验】给ChatGPT装上眼睛，并且还可以语音对话：7，图像采集与物体识别

图像采集与物体识别上一篇中完成了所有音频相关的输入输出，先在要开始尝试视频的相关操作了。我们可以利用手机上的摄像头，将其变成一个网络摄像头，然后再在Longan Pi上获取图像，就可以

发表于 04-16 16:56

图像采集卡的工作原理是什么？

的工作原理是通过将模拟信号输入到ADC（模数转换器）中，将其转换为数字信号，然后通过DMA（直接内存访问）技术将数据传输到计算机内存中。这样就可以实现对图像的实时

发表于 03-20 12:01 •177次阅读

如何实现PIL和OpenCV之间图像数据的转换呢？

PIL图像数据格式转换成OpenCV图像数据格式

发表于 02-25 13:43 •494次阅读

图像标注如何提升效率？

图像标注是通过一定方式对图像进行标记分类，是对数据集的图像进行标记以训练机器学习模型的过程。当图像数量可控时，用人工标注就可以很快完成任务，

发表于 12-19 08:29 •196次阅读

英伟达为何放不下中国？

英伟达行业资讯

深圳市浮思特科技有限公司
发布于 :2023年11月27日 15:11:09

了解这些就可以搞懂 IGBT

了解这些就可以搞懂 IGBT

发表于 11-24 15:47 •521次阅读

#英伟达 #显卡英伟达全新旗舰显卡RTX 5090性能暴涨70%

显卡英伟达

深圳市浮思特科技有限公司
发布于 :2023年11月20日 14:19:25

OpenCV图像处理之图像梯度+Canny边缘检测

的参数分别是原图像，cv.CV_64F是图像深度，一般写作-1就可以了，dx和dy分别表示x轴方向和y轴方向的算子，ksize就是内核

发表于 11-14 15:54 •268次阅读

#消费级显示被禁止出口英伟达RTX 4090显卡遭遇下架风波

英伟达

深圳市浮思特科技有限公司
发布于 :2023年10月19日 15:58:35

什么是零样本学习？为什么要搞零样本学习？

零样本分类的技术目前正处于高速发展时期，所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。对此，本文将其称为广义零样本分类。相应地，我们将针对

发表于 09-22 11:10 •1044次阅读

如何用Python来实现图像压缩

，这样就可以大幅度减少图像的像素数，从而减少图像的大小。例如： img = Image.open( "test.jpg" ) print (img.size) # ( 640 , 640

发表于 09-12 17:33 •609次阅读

基于K-means聚类算法的图像分割

图像分割：利用图像的灰度、颜色、纹理、形状等特征，把图像分成若干个互不重叠的区域，并使这些特征在同一区域内呈现相似性，在不同的区域之间存在明显的差异性。然后就可以将分割的

发表于 09-07 16:59 •631次阅读

从原理到c++代码实现 | 通过球面投影将点云转换为Range图像

对于一个m线的激光雷达，在扫描的某一时刻会得到m个点，如果旋转一周扫描了n次，那么得到的点云就可以用一个的矩阵来表示。那么怎么把3维的点云投影到2维的距离图像平面呢？这就需要用到球面坐标。

发表于 06-21 10:30 •892次阅读

小样本学习领域的未来发展方向

什么是小样本学习？它与弱监督学习等问题有何差异？其核心问题是什么？来自港科大和第四范式的这篇综述论文提供了解答。数据是机器学习领域的重要资源，在数据缺少的情况下如何训练模型呢？小样本学习是其中

发表于 06-14 09:59 •607次阅读

荐读：FPGA设计经验之图像处理

各种灵活的运算处理。这样FPGA通过缓存若干行图像数据就可以对图像进行实时处理，数据就这样一边流过就一边处理好了，不需要送入DDR缓存了之后再读出来处理。这样的数据流处理显然是顺序读取数据的，那么

发表于 06-08 15:55