0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据增强及其在机器学习中的重要性

星星科技指导员 来源:VOLANSYS 作者:Aekam Parmar 2022-12-05 17:26 次阅读

数据的数量和变化对于大多数 ML 模型(例如深度学习神经网络模型)的性能非常重要。因此,神经网络模型的训练需要一个非常大的数据集。只有它才能达到生产就绪模型中预期的精度。

假设您有少量可用的数据集,不足以训练模型,并且您不知道如何生成具有所需数据变体的足够数据集。这正是“数据增强”有助于实现的目标。

什么是数据增强?

数据增强是一种通过向现有数据集添加某些变体并将其添加到原始数据集以生成“略微修改和乘法”数据来人为增加数据集体积的技术。您可以获取数据集中的所有可用样本,并以不同的方式对其进行多次修改,以获得更大的数据集。

数据集在模型训练中的重要性

机器学习管道的第一阶段是生成或获取用于训练机器学习模型所需的数据集。机器学习模型足够智能,可以识别训练的对象。但是,如果他们不是培训的一部分,他们就不那么聪明,无法处理不同的场景。

例如,如果训练模型时所有训练图像仅在一个特定方向上对齐,则它可能无法识别水平和/或垂直翻转图像中的对象。这样做的原因是它产生的特征与它在训练期间学习的特征不同,即使它们属于同一个对象。

在大多数情况下,高质量数据的可用性始终是一个大问题。它可能少量可用,也可能根本不可用。在这种情况下,收集足以达到所需精度的数据集将是一个挑战。如果数据集的数量不足或变化程度不高,则可能导致拟合不足或过度拟合。

为什么数据增强很重要?

在机器学习模型中,收集和标记数据是一个繁琐且成本高昂的过程。数据增强可以转换为数据集,帮助组织降低运营成本。同时,它解决了数据集大小有限和数据变化有限的问题。这提高了模型在各种方案中的整体性能。

它是如何工作的?

根据数据集的类型,可以使用不同的数据增强技术。有许多数据增强技术可用于图像/视频音频和文本数据。我们将详细探讨图像/视频数据增强方法。

图像/视频中的数据增强技术

图像/视频将 RGB 信息存储在 2D 数组中。主要的数据增强技术可能是改变图像的方向、改变图像的分辨率/大小以及改变 RGB(像素)值。

这些选项的不同组合可以导致更多的增强方法。imgaug库提供了许多不同的图像数据增强选项,如下所示。

算术:-此类操作更改整个图像或其某些部分的像素值。加法和乘法选项将像素值相加和相乘一个随机数(在预定义范围内生成)。对于所有像素,此数字可能相同,对于相邻像素,此数字可能不同。有一些选项可以将随机像素或像素簇设置为常量值。类似的选项是为整个图像添加某些噪点。此外,还可以反转像素值

艺术的:-此类别提供了将图像样式转换为卡通图像的选项

模糊:-此类别提供了不同的选项来模糊图像内容。可能的选项是GaussianBlur,AverageBlur,MedianBlur,BilateralBlur,MotionBlur,MeanShiftBlur

颜色:-此类操作针对色彩空间、亮度、色调和饱和度。色彩空间选项的一个示例是将 RGB 转换为 HSV,然后将随机值(每个图像均匀采样)添加到 Hue 通道,并转换回 RGB。有一些选项可以对亮度、饱和度和色调执行加法和乘法运算。

反差:-此类操作专用于对比度处理。可用选项包括伽马对比度、Sigmoid 对比度、对数对比度、线性对比度

卷 积:-顾名思义,此类操作与具有预定义矩阵值的卷积图像有关。它提供了更改清晰度、添加浮雕效果和检测图像边缘的选项

空翻:-这是一个广泛使用的选项,它具有水平和/或垂直翻转图像的选项

几何:-此类操作可以缩放图像(如放大和缩小),移动图像(水平和/或垂直)并向图像的另一端添加填充,以及旋转图像

Imgcorruptlike:-此类选项会向图像添加不同的噪点,例如高斯噪点、散粒噪点、脉冲噪点、散斑噪点。它还提供不同的图像模糊选项,如高斯模糊、玻璃模糊、散焦模糊、运动模糊、缩放模糊。此外,还可以应用雾、霜、雪和飞溅效果

大小:-此类别的选项执行与图像大小相关的操作。可以根据特定的高度和宽度或调整大小的百分比调整图像大小。图像的裁剪和填充可以应用于图像的特定大小

图像数据增强通过生成所需级别的数据集,无疑提高了模型的准确性。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4562

    浏览量

    98646
  • 机器学习
    +关注

    关注

    66

    文章

    8095

    浏览量

    130517
  • 深度学习
    +关注

    关注

    73

    文章

    5224

    浏览量

    119866
收藏 人收藏

    评论

    相关推荐

    工业路由器在工业场景中的重要性

    工业路由器的重要性逐渐显现,其在推动工业自动化、提高生产效率、增强设备兼容性以及保证数据安全等方面发挥着不可替代的作用。本文将详细阐述工业路由器在工业场景中的重要性,以帮助读者更好地理
    的头像 发表于 04-17 16:14 83次阅读

    什么是机器学习?它的重要性体现在哪

    任务的解决方法。机器学习重要性体现在几个方面数据处理能力:在当今数字化时代,我们产生了大量的数据机器
    的头像 发表于 01-05 08:27 454次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?它的<b class='flag-5'>重要性</b>体现在哪

    ADC噪声系数的重要性

    ADC,噪声系数(NF)和信噪比(SNR)是可以互换的。噪声系数对了解噪声密度十分有用,而信噪比衡量的则是目标频段的噪声总量。尽管如此,我们来深入地了解一下噪声系数。有些折衷具有误导
    发表于 12-19 06:18

    Python中进行特征重要性分析的9个常用方法

    如果有一个包含数十个甚至数百个特征的数据集,每个特征都可能对你的机器学习模型的性能有所贡献。但是并不是所有的特征都是一样的。有些可能是冗余的或不相关的,这会增加建模的复杂性并可能导致过拟合。特征
    的头像 发表于 10-16 11:09 338次阅读
    Python中进行特征<b class='flag-5'>重要性</b>分析的9个常用方法

    Python如何进行特征重要性分析

    特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器学习中经常使用的一种方法。
    发表于 10-13 12:32 171次阅读
    Python如何进行特征<b class='flag-5'>重要性</b>分析

    机器学习数据挖掘方法和应用

    机器学习数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    机器学习数据挖掘的区别 机器学习数据挖掘的关系

    机器学习数据挖掘的区别 , 机器学习数据挖掘的关系 机器
    的头像 发表于 08-17 16:30 1507次阅读

    机器学习可以分为哪几类?机器学习技术有哪些?

    机器学习可以分为哪几类?机器学习技术有哪些 机器学习(Machine Learning,ML)是
    的头像 发表于 08-17 16:11 4330次阅读

    数据填报的重要性是什么?#数据填报 #光点科技

    数据
    光点科技
    发布于 :2023年08月10日 09:28:49

    数据填报的重要性是什么?#数据填报系统 #光点科技

    数据
    光点科技
    发布于 :2023年08月01日 11:44:13

    PCB印刷电路板打样的重要性

    PCB印刷电路板打样的重要性 PCB印刷电路板几乎是我们日常生活中使用的所有电子设备的重要组成部分。作为如此重要的组件,大多数原始设备厂商需要精密的PCB设计和制造,这是因为它们应用
    发表于 06-07 16:37

    关于PCBA元器件布局的重要性

    设备不一样,组装的制成能力有差别,安全值可定义为严重、可能、安全。 器件布局不合理的缺陷 元器件PCB上的正确安装布局,是降低焊接缺陷的极
    发表于 05-22 10:34

    【干货集】PCBA板边器件布局重要性

    关于元器件布局设计的重要性不言而喻,轻则影响焊接,重则直接导致器件损毁,那么要如何保证0设计问题,进而顺利完成生产呢? 华秋DFM组装分析功能,具有根据元器件类型距板边的参数定义检查规则,针对板边
    发表于 05-08 09:58

    图像识别数据集的重要性及其分类

    随着计算机视觉技术的不断发展,图像识别已经成为人工智能领域中的一个热门话题。而作为图像识别技术中的关键环节,数据集的质量和规模对于模型的训练和性能的提升至关重要。因此,本文将从数据集的重要性
    的头像 发表于 05-05 18:19 1668次阅读

    机器学习管道的重要性

    数据提取和预处理到模型训练和调优,模型和部署的分析将在主流设计中的单个实体中运行。这意味着将使用相同的脚本提取、清理、准备、建模和部署数据。由于机器学习模型通常比其他软件应用程序包含
    的头像 发表于 05-04 09:55 482次阅读