0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

智能感知与物联网技术研究所 来源:未知 2023-11-05 20:15 次阅读

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

论文链接:https://arxiv.org/abs/2305.17476

代码链接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式数据扩增通过条件生成模型生成新样本来扩展数据集,从而提高各种学习任务的分类性能。然而,很少有人从理论上研究生成数据增强的效果。为了填补这一空白,我们在这种非独立同分布环境下构建了基于稳定性的通用泛化误差界。基于通用的泛化界,我们进一步了探究了高斯混合模型和生成对抗网络的学习情况。

在这两种情况下,我们证明了,虽然生成式数据增强并不能享受更快的学习率,但当训练集较小时,它可以在一个常数的水平上提高学习保证,这在发生过拟合时是非常重要的。最后,高斯混合模型的仿真结果和生成式对抗网络的实验结果都支持我们的理论结论。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理论结果

2.1 符号与定义

作为数据输入空间, 作为标签空间。定义 上的真实分布。给定集合 ,我们定义 为去掉第 个数据后剩下的集合, 为把第 个数据换成 后的集合。我们用 表示 total variation distance。

我们让 为所有从 的所有可测函数, 为学习算法从数据集 中学到的映射。对于一个学到的映射 和损失函真实误差 被定义相应的经验的误差 被定义

我们文章理论推导采用的是稳定性框架,我们称算法 相对于损失函数 是一致 稳定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式数据增强

给定带有 个 i.i.d. 样本的 数据集,我们能训练一个条件生成模型 ,并将学到的分布定义为 。基于训练得到的条件生成模型,我们能生成一个新的具有 个 i.i.d. 样本的数据集 。我们记增广后的数据集 大小为 。我们可以在增广后的数据集上学到映射 。为了理解生成式数据增强,我们关心泛化误差 。据我们所知,这是第一个理解生成式数据增强泛化误差的工作。

2.3 一般情况

我们可以对于任意的生成器和一致 稳定的分类器,推得如下的泛化误差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般来说,我们比较关心泛化误差界关于样本数 的收敛率。将 看成超参数,并将后面两项记为 generalization error w.r.t. mixed distribution,我们可以定义如下的“最有效的增强数量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在这个设置下,并和没有数据增强的情况进行对比(),我们可以得到如下的充分条件,它刻画了生成式数据增强何时(不)能够促进下游分类任务,这和生成模型学习分的能力息息相关:

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型为了验证我们理论的正确性,我们先考虑了一个简单的高斯混合模型的 setting。 混合高斯分布。我们考虑二分类任务 。我们假设真实分布满足 and 。我们假设 的分布是已知的。 线性分类器。我们考虑一个被 参数化的分类器,预测函数为 。给定训练集, 通过最小化负对数似然损失函数得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

学习算法将会推得 ,which satisfies 条件生成模型。我们考虑参数为 的条件生成模型,其中 以及 。给定训练集,让 为第 类的样本量,条件生成模型学到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它们是 的无偏估计。我们可以从这个条件模型中进行采样,即 ,其中 我们在高斯混合模型的场景下具体计算 Theorem 3.1 中的各个项,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 当数据量 足够时,即使我们采用“最有效的增强数量”,生成式数据增强也难以提高下游任务的分类性能。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

2.5 生成对抗网络

我们也考虑了深度学习的情况。我们假设生成模型为 MLP 生成对抗网络,分类器为 层 MLP 或者 CNN。损失函数为二元交叉熵,优化算法为 SGD。我们假设损失函数平滑,并且第 层的神经网络参数可以被 控制。我们可以推得如下的结论:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 当数据量 足够时,生成式数据增强也难以提高下游任务的分类性能,甚至会恶化。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,同样地,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

实验

3.1 高斯混合模型模拟实验

我们在混合高斯分布上验证我们的理论,我们调整数据量 ,数据维度 以及 。实验结果如下图所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 观察图(a),我们可以发现当 相对于 足够大的时候,生成式数据增强的引入并不能明显改变泛化误差。
  2. 观察图(d),我们可以发现当 固定时,真实的泛化误差确实是 阶的,且随着增强数量 的增大,泛化误差呈现常数级的降低。
  3. 另外 4 张图,我们选取了两种情况,验证了我们的 bound 能在趋势上一定程度上预测泛化误差。
这些结果支持了我们理论的正确性。3.2 深度生成模型实验我们使用 ResNet 作为分类器,cDCGAN、StyleGANv2-ADA 和 EDM 作为深度生成模型,在 CIFAR-10 数据集上进行了实验。实验结果如下所示。由于训练集上训练误差都接近 0,所以测试集上的错误率是泛化误差的一个比较好的估计。我们利用是否做额外的数据增强(翻转等)来近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在没有额外数据增强的时候, 较小,分类器陷入了严重的过拟合。此时,即使选取的 cDCGAN 很古早(bad GAN),生成式数据增强都能带来明显的提升。
  2. 在有额外数据增强的时候, 充足。此时,即使选取的 StyleGAN 很先进(SOTA GAN),生成式数据增强都难以带来明显的提升,在 50k 和 100k 增强的情况下甚至都造成了一致的损害。
  3. 我们也测试了一个 SOTA 的扩散模型 EDM,发现即使在有额外数据增强的时候,生成式数据增强也能提升分类效果。这意味着扩散模型学习分布的能力可能会优于 GAN。


原文标题:NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2870

    文章

    41671

    浏览量

    358460

原文标题:NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美日联手研究生成式AI,将建立合作框架

    近期,美国和日本政府宣布将联手研究生成式人工智能(AI),并计划建立一个合作框架以共同推进该领域的技术进步。
    的头像 发表于 04-18 15:15 349次阅读

    【书籍评测活动NO.30】大规模语言模型:理论到实践

    更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大模型的理论基础,并开展大模型实践,复旦大学张奇教授团队结合他们在自然语言处理领域的研究经验,以及分布系统和并行计算的
    发表于 03-11 15:16

    请问下stm32G0系列理论上的外部中断响应时间是多少?

    大佬们,请问下stm32G0系列理论上的外部中断响应时间是多少?我在spec里面没有找到对这块的详细描述,只有如下描述; 看之前的帖子stm32F103的外部中断响应时间是12个时钟周期,实际应该会比这个时间长,G0也是一样的吗?
    发表于 03-08 07:41

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开发者、研究人员和学界人士,这一AI和计算机视觉领域的全球顶会将于12月10日至16日
    的头像 发表于 12-08 19:15 352次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将重点展示31项研究成果,它们将推进面向未来的AI创新。        英特尔研究院将在NeurIPS 2023大会上展示一系列
    的头像 发表于 12-08 09:17 405次阅读

    NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架

    的群体智能效果。本文介绍了来自 KAUST 研究团队的大模型心智交互 CAMEL 框架(“骆驼”),CAMEL 框架是最早基于 ChatGPT 的 autonomous agents 知名项目,目前已被
    的头像 发表于 11-26 21:25 603次阅读
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | AI Agents先行者CAMEL:首个基于大模型的多智能体框架

    OpenHarmony社区运营报告(2023年10月)

    便捷;我们持续优化图形框架和方舟编译器(ArkCompiler),用户交互体验得到进一步提升;ArkUI组件定制化能力和组件动效能力也得到进一步增强;分布硬件支持的范围扩大到音频和输入领域;分布
    发表于 11-09 08:42

    下一代神经网络:NVIDIA Research 在 NeurIPS 大会上发布一系列 AI 技术进步

    NVIDIA 研究人员正在与世界各地的学术机构合作,推进生成式 AI、机器人和自然科学领域的进步。在全球顶级 AI 会议之一 NeurIPS 上,NVIDIA 将介绍其中的十几个项目
    的头像 发表于 11-03 19:15 432次阅读
    下一代神经网络:NVIDIA Research 在 <b class='flag-5'>NeurIPS</b> 大会上发布一系列 AI 技术进步

    NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见

    离开学校加入公司的业务部门已经半年多了,往后应该会努力抽时间做点开源项目,但暂时没什么计划再发一作论文了。这次介绍下我和我(前)实验室一位非常优秀的学弟 beier 合作的一篇 NeurIPS
    的头像 发表于 10-30 11:05 248次阅读
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | 大模型时代自监督预训练的隐性长尾偏见

    NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

    工作, 目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。 TL;DR 我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT
    的头像 发表于 10-15 20:25 337次阅读
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | 全新的自监督视觉预训练代理任务:DropPos

    OpenHarmony社区运营报告(2023年8月)

    通信、媒体功能、安全性等方面进行了全面升级。其中ArkUI增强了界面组件能力应用框架支持了ArkTS卡片代理刷新分布数据管理引入了UDMF框架媒体播放和编解码能力进一步提升。同时安全性加强了DSA
    发表于 09-12 18:35

    Cadence 连续六年助力中国研究生创“芯”大赛

    中国研究生创“芯”大赛 是中国研究生创新实践系列赛事之一,是一项面向全国高等院校和科研院所在读研究生的团体性集成电路设计创意实践活动。大赛以“创芯、选星、育芯”为宗旨,配合国家集成电路产业发展战略
    的头像 发表于 08-11 12:15 363次阅读
    Cadence 连续六年助力中国<b class='flag-5'>研究生</b>创“芯”大赛

    智能感知与物联网技术研究所2021级硕士研究生中期报告(五)

    原文标题:智能感知与物联网技术研究所2021级硕士研究生中期报告(五) 文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 07-24 15:15 307次阅读

    智能感知与物联网技术研究所2021级硕士研究生中期报告(四)

    原文标题:智能感知与物联网技术研究所2021级硕士研究生中期报告(四) 文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 07-21 07:35 341次阅读

    软件开发的未来:生成式AI增强角色并解锁共同创新

    生成式 AI 正在通过自动化任务、增强协作和加速创新来改变软件开发。这项尖端技术有望增强各种软件角色,为共同创新创造不同的视角和机会。在本文中,我将深入研究生成式AI在软件开发中的未来
    发表于 06-09 09:18 393次阅读