0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

智能感知与物联网技术研究所 来源:未知 2023-11-05 20:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

论文链接:https://arxiv.org/abs/2305.17476

代码链接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式数据扩增通过条件生成模型生成新样本来扩展数据集,从而提高各种学习任务的分类性能。然而,很少有人从理论上研究生成数据增强的效果。为了填补这一空白,我们在这种非独立同分布环境下构建了基于稳定性的通用泛化误差界。基于通用的泛化界,我们进一步了探究了高斯混合模型和生成对抗网络的学习情况。

在这两种情况下,我们证明了,虽然生成式数据增强并不能享受更快的学习率,但当训练集较小时,它可以在一个常数的水平上提高学习保证,这在发生过拟合时是非常重要的。最后,高斯混合模型的仿真结果和生成式对抗网络的实验结果都支持我们的理论结论。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理论结果

2.1 符号与定义

作为数据输入空间, 作为标签空间。定义 上的真实分布。给定集合 ,我们定义 为去掉第 个数据后剩下的集合, 为把第 个数据换成 后的集合。我们用 表示 total variation distance。

我们让 为所有从 的所有可测函数, 为学习算法从数据集 中学到的映射。对于一个学到的映射 和损失函真实误差 被定义相应的经验的误差 被定义

我们文章理论推导采用的是稳定性框架,我们称算法 相对于损失函数 是一致 稳定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式数据增强

给定带有 个 i.i.d. 样本的 数据集,我们能训练一个条件生成模型 ,并将学到的分布定义为 。基于训练得到的条件生成模型,我们能生成一个新的具有 个 i.i.d. 样本的数据集 。我们记增广后的数据集 大小为 。我们可以在增广后的数据集上学到映射 。为了理解生成式数据增强,我们关心泛化误差 。据我们所知,这是第一个理解生成式数据增强泛化误差的工作。

2.3 一般情况

我们可以对于任意的生成器和一致 稳定的分类器,推得如下的泛化误差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般来说,我们比较关心泛化误差界关于样本数 的收敛率。将 看成超参数,并将后面两项记为 generalization error w.r.t. mixed distribution,我们可以定义如下的“最有效的增强数量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在这个设置下,并和没有数据增强的情况进行对比(),我们可以得到如下的充分条件,它刻画了生成式数据增强何时(不)能够促进下游分类任务,这和生成模型学习分的能力息息相关:

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型为了验证我们理论的正确性,我们先考虑了一个简单的高斯混合模型的 setting。 混合高斯分布。我们考虑二分类任务 。我们假设真实分布满足 and 。我们假设 的分布是已知的。 线性分类器。我们考虑一个被 参数化的分类器,预测函数为 。给定训练集, 通过最小化负对数似然损失函数得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

学习算法将会推得 ,which satisfies 条件生成模型。我们考虑参数为 的条件生成模型,其中 以及 。给定训练集,让 为第 类的样本量,条件生成模型学到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它们是 的无偏估计。我们可以从这个条件模型中进行采样,即 ,其中 我们在高斯混合模型的场景下具体计算 Theorem 3.1 中的各个项,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 当数据量 足够时,即使我们采用“最有效的增强数量”,生成式数据增强也难以提高下游任务的分类性能。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

2.5 生成对抗网络

我们也考虑了深度学习的情况。我们假设生成模型为 MLP 生成对抗网络,分类器为 层 MLP 或者 CNN。损失函数为二元交叉熵,优化算法为 SGD。我们假设损失函数平滑,并且第 层的神经网络参数可以被 控制。我们可以推得如下的结论:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 当数据量 足够时,生成式数据增强也难以提高下游任务的分类性能,甚至会恶化。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,同样地,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

实验

3.1 高斯混合模型模拟实验

我们在混合高斯分布上验证我们的理论,我们调整数据量 ,数据维度 以及 。实验结果如下图所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 观察图(a),我们可以发现当 相对于 足够大的时候,生成式数据增强的引入并不能明显改变泛化误差。
  2. 观察图(d),我们可以发现当 固定时,真实的泛化误差确实是 阶的,且随着增强数量 的增大,泛化误差呈现常数级的降低。
  3. 另外 4 张图,我们选取了两种情况,验证了我们的 bound 能在趋势上一定程度上预测泛化误差。
这些结果支持了我们理论的正确性。3.2 深度生成模型实验我们使用 ResNet 作为分类器,cDCGAN、StyleGANv2-ADA 和 EDM 作为深度生成模型,在 CIFAR-10 数据集上进行了实验。实验结果如下所示。由于训练集上训练误差都接近 0,所以测试集上的错误率是泛化误差的一个比较好的估计。我们利用是否做额外的数据增强(翻转等)来近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在没有额外数据增强的时候, 较小,分类器陷入了严重的过拟合。此时,即使选取的 cDCGAN 很古早(bad GAN),生成式数据增强都能带来明显的提升。
  2. 在有额外数据增强的时候, 充足。此时,即使选取的 StyleGAN 很先进(SOTA GAN),生成式数据增强都难以带来明显的提升,在 50k 和 100k 增强的情况下甚至都造成了一致的损害。
  3. 我们也测试了一个 SOTA 的扩散模型 EDM,发现即使在有额外数据增强的时候,生成式数据增强也能提升分类效果。这意味着扩散模型学习分布的能力可能会优于 GAN。


原文标题:NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47341

    浏览量

    408210

原文标题:NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    openDACS 2025 开源EDA与芯片赛项 赛题七:基于大模型的生成原理图设计

    、分布式数据库;(2)人工智能领域:AI加速芯片及人工智能软件框架规划;(3)CAD&CG领域:几何建模、网格生成、结构优化、计算图分割&分布批处理,2D梯度约简
    发表于 11-13 11:49

    Cadence连续八年助力中国研究生创“芯”大赛

    中国研究生创“芯”大赛是中国研究生创新实践系列赛事之一,是一项面向全国高等院校和科研院所在读研究生的团体性集成电路设计创意实践活动。大赛以“创芯、选星、育芯”为宗旨,配合国家集成电路产业发展战略,切实提高
    的头像 发表于 08-06 15:05 1069次阅读

    NVIDIA recsys-examples在生成推荐系统中的高效实践

    生成 AI 浪潮的推动下,推荐系统领域正经历深刻变革。传统的深度学习推荐模型 (DLRMs) 虽已展现出一定效果,但在捕捉用户兴趣偏好和动态行为序列变化时,常面临可扩展性挑战。生成
    的头像 发表于 07-04 14:43 846次阅读
    NVIDIA recsys-examples在<b class='flag-5'>生成</b><b class='flag-5'>式</b>推荐系统中的高效实践

    Gartner报告看Atlassian在生成AI领域的创新路径与实践价值

    Atlassian入选Gartner 2025生成AI技术"新兴领导者"!其核心AI产品Rovo依托Teamwork Graph,支持团队知识库中提取情境化的个性答案与洞察
    的头像 发表于 06-05 15:59 957次阅读
    <b class='flag-5'>从</b>Gartner报告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI领域的创新路径与实践价值

    利用LT8361做一个将30V输入转为-70V或-80V或-90V输出,它可以在理论上实现吗?

    您好,我想咨询一个问题,我看LT8361手册里写的他是100V的开关,这个100V是指输出电压至地还是指 输出电压至输入,即我想利用LT8361做一个将30V输入转为-70V或-80V或-90V输出,它可以在理论上实现吗? 期待您的回复,感谢!
    发表于 04-18 07:57

    IBM如何基于SAP平台和数据推动生成AI的成功应用

    “近日,IBM 商业价值研究院(IBV)与 SAP 研究洞察中心联合开展了一项大规模调研,覆盖全球 1200余位全球企业高管,其中 200位来自大中华区,以深入洞察组织如何基于 SAP 平台和数据推动
    的头像 发表于 04-17 10:20 825次阅读

    浙江大学与大华股份共建研究生联合培育基地

    近日,浙江大学研究生产教融合人才培养工作会议在杭州召开,会上举行了校级联合培养基地授牌仪式暨行业导师聘书颁发仪式,大华股份作为校级联合培养基地代表参会,标志着“浙江大学-大华股份研究生联合培养基地”正式成立。
    的头像 发表于 03-27 15:34 632次阅读

    ​Diffusion生成动作引擎技术解析

    开发、虚拟现实、影视动画和机器人控制等领域具有广泛应用前景。以下是其核心原理、技术实现和应用方向的详细解析: 一、核心原理 扩散模型基础 Diffusion模型通过逐步添加噪声破坏数据(正向过程),再学习逆向去噪过程(逆向过程),最终随机噪声中
    的头像 发表于 03-17 15:14 2717次阅读

    聚云科技获亚马逊云科技生成AI能力认证

    的应用上展现出了卓越的能力。 聚云科技通过整合亚马逊云科技的先进技术,应用范围确定、模型选择、数据处理、模型调优到应用集成与部署,为企业提供全方位的生成AI应用落地支持。这不仅加速
    的头像 发表于 02-19 10:33 838次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证

    Bedrock等技术,应用范围、模型选择、数据处理、模型调优到应用集成与部署等方面,助力企业加速生成AI应用落地。此外,聚云科技还基于亚马逊云科技打造RAGPro企业知识库、AI
    的头像 发表于 02-14 16:07 703次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证 助力企业加速生成AI应用落地

    数据处理、模型调优到应用集成与部署等方面,助力企业加速生成AI应用落地。此外,聚云科技还基于亚马逊云科技打造RAGPro企业知识库、AI-Space、DecisionAI和数字人等生成
    发表于 02-14 13:41 330次阅读

    生成AI工具好用吗

    当下,生成AI工具正以其强大的内容生成能力,为用户带来了前所未有的便捷与创新。那么,生成AI工具到底好用吗?答案无疑是肯定的。接下来,A
    的头像 发表于 01-17 09:54 836次阅读

    请问18位的adc怎么保证理论的分辨率呢?

    18位的adc,基准是2.048v 请问怎么保证理论的分辨率15uv呢? 我用电池的电压3.8v做差分输入,但是后面只有4位不跳,就是3.8000x, x会跳,理论上应该是3.80000x 那么我想问下能不能用软件方式进行处理呢?!
    发表于 01-13 07:01

    检索增强生成(RAG)系统详解

    流畅且类似人类的文本方面表现出色,但它们有时在事实准确性存在困难。当准确性非常重要时,这可能是一个巨大的问题。 那么,这个问题的解决方案是什么呢?答案是检索增强生成(RAG)系统。 RAG集成了像GPT这样的模型的强大功能,
    的头像 发表于 12-24 10:44 1649次阅读
    检索<b class='flag-5'>增强</b>型<b class='flag-5'>生成</b>(RAG)系统详解

    调试ADS5400的时候,采集到的数据在没有信号输入时有毛刺,为什么?

    我在调试ADS5400的时候,1G采样率,双通道,DDR模式,发现采集到的数据在没有信号输入时有毛刺现象。在spi不配置的情况下,输出偏移二进制,理论上ADS5400输出的值在2048左右,但是会出现520和3320的数据。这
    发表于 12-12 06:45