0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习的任务:从学术论文中学习数据预处理

如意 来源:百家号 作者: 读芯术 2020-07-01 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为工作中最关键的部分,数据预处理同时也是大多数数据科学家耗时最长的项目,他们大约80%的时间花在这上面。

这些任务有怎样重要性?有哪些学习方法和技巧?本文就将重点介绍来自著名大学和研究团队在不同培训数据主题上的学术论文。主题包括人类注释者的重要性,如何在相对较短的时间内创建大型数据集,如何安全处理可能包含私人信息的训练数据等等。

1. 人类注释器(human annotators)是多么重要?

机器学习的任务:从学术论文中学习数据预处理

本文介绍了注释器质量如何极大地影响训练数据,进而影响模型的准确性的第一手资料。在这个情绪分类项目里,Joef Stefan研究所的研究人员用多种语言分析了sentiment-annotated tweet的大型数据集。

有趣的是,该项目的结果表明顶级分类模型的性能在统计学上没有重大差异。相反,人类注释器的质量是决定模型准确性的更大因素。

为了评估他们的注释器,团队使用了注释器之间的认同过程和自我认同过程。研究发现,虽然自我认同是去除表现不佳的注释器的好方法,但注释者之间的认同可以用来衡量任务的客观难度。

研究论文:《多语言Twitter情绪分类:人类注释器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均来自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.机器学习的数据收集调查

机器学习的任务:从学术论文中学习数据预处理

这篇论文来自韩国先进科学技术研究所的一个研究团队,非常适合那些希望更好地了解数据收集、管理和注释的初学者。此外,本文还介绍和解释了数据采集、数据扩充和数据生成的过程。

对于刚接触机器学习的人来说,这篇文章是一个很好的资源,可以帮助你了解许多常见的技术,这些技术可以用来创建高质量的数据集。

研究论文:《机器学习的数据收集调查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均来自韩国科学技术院)

出版/最后更新日期:2019年8月12日

3.用于半监督式学习和迁移学习的高级数据增强技术

机器学习的任务:从学术论文中学习数据预处理

目前数据科学家面临的最大问题之一就是获得训练数据。也可以说,深度学习所面临最大的问题之一,是大多数模型都需要大量的标签数据才能以较高的精度发挥作用。

为了解决这些问题,来自谷歌和卡内基·梅隆大学的研究人员提出了一个在大幅降低数据量的情况下训练模型的框架。该团队提出使用先进的数据增强方法来有效地将噪音添加到半监督式学习模型中使用的未标记数据样本中,这个框架能够取得令人难以置信的结果。

该团队表示,在IMDB文本分类数据集上,他们的方法只需在20个标记样本上进行训练,就能够超越最先进的模型。此外,在CIFAR-10基准上,他们的方法表现优于此前所有的方法。

论文题目:《用于一致性训练的无监督数据增强》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大脑团队, 2 – 卡耐基·梅隆大学)

发布日期 / 最后更新:2019年9月30日

4.利用弱监督对大量数据进行标注

对于许多机器学习项目来说,获取和注释大型数据集需要花费大量的时间。在这篇论文中,来自斯坦福大学的研究人员提出了一个通过称为“数据编程”的过程自动创建数据集的系统。

机器学习的任务:从学术论文中学习数据预处理

上表是直接从论文中提取的,使用数据编程(DP)显示了与远程监督的ITR方法相比的精度、召回率和F1得分。

该系统采用弱监管策略来标注数据子集。产生的标签和数据可能会有一定程度的噪音。然而,该团队随后通过将训练过程表示为生成模型,从数据中去除噪音,并提出了修改损失函数的方法,以确保它对“噪音感知”。

研究论文:《数据编程:快速创建大型训练集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均来自斯坦福大学)

发布/最后更新日期:2017年1月8日

5.如何使用半监督式知识转移来处理个人身份信息(PII)

机器学习的任务:从学术论文中学习数据预处理

来自谷歌和宾夕法尼亚州立大学的研究人员介绍了一种处理敏感数据的方法,例如病历和用户隐私信息。这种方法被称为教师集合私有化(PATE),可以应用于任何模型,并且能够在MNIST和SVHN数据集上实现最先进的隐私/效用权衡。

然而,正如数据科学家Alejandro Aristizabal在文章中所说,PATE所设计的一个主要问题为该框架要求学生模型与教师模型共享其数据。在这个过程中,隐私得不到保障。

为此Aristizabal提出了一个额外的步骤,为学生模型的数据集加密。你可以在他的文章Making PATEBidirectionally Private中读到这个过程,但一定要先阅读其原始研究论文。

论文题目:《从隐私训练数据进行深度学习的半监督式知识转移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(宾夕法尼亚州立大学)、Martin Abadi(谷歌大脑)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大脑)、Kunal Talwar(谷歌大脑)。

发布日期 / 最后更新:2017年3月3日

阅读顶尖学术论文是了解学术前沿的不二法门,同时也是从他人实践中内化重要知识、学习优秀研究方法的好办法,多读读论文绝对会对你有帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136228
  • 论文
    +关注

    关注

    1

    文章

    103

    浏览量

    15372
  • 数据预处理
    +关注

    关注

    1

    文章

    20

    浏览量

    2978
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    思必驰与上海交大联合实验室五篇论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,思必驰-上海交大联合实验室共有5篇论文被收录。
    的头像 发表于 10-23 15:24 560次阅读
    思必驰与上海交大联合实验室五篇<b class='flag-5'>论文</b>入选NeurIPS 2025

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模
    的头像 发表于 07-16 15:34 2630次阅读

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用ModbusTCP寄存器获取的实时
    的头像 发表于 06-11 17:22 768次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理模型部署与工业集成!

    机器学习赋能的智能光子学器件系统研究与应用

    腾讯会议---六月直播 1.机器学习赋能的智能光子学器件系统研究与应用 2.COMSOL声学多物理场仿真技术与应用 3.超表面逆向设计及前沿应用(基础入门到论文复现) 4.智能光学计
    的头像 发表于 06-04 17:59 446次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>赋能的智能光子学器件系统研究与应用

    嵌入式AI技术之深度学习数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据
    的头像 发表于 04-02 18:21 1280次阅读

    Raspberry Pi Pico 2 上实现:实时机器学习(ML)音频噪音抑制功能

    程序的开发方式。应用程序开发人员现在可以为所需系统整理包含大量输入和输出示例的数据集,然后使用这些数据集来训练ML模型。在训练过程中,ML模型输入和输出中学习
    的头像 发表于 03-25 09:46 944次阅读
    Raspberry Pi Pico 2 上实现:实时<b class='flag-5'>机器</b><b class='flag-5'>学习</b>(ML)音频噪音抑制功能

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场
    的头像 发表于 02-13 09:39 619次阅读

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统
    的头像 发表于 12-30 09:16 1969次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

    讲解如何构造具身智能基础模型的方法和步骤,包括数据采集、预处理、模型训练和评估等。 在第四部分,介绍了具身智能机器人的计算挑战,包括计算加速、算法安全性和系统可靠性等内容。 最后,在第五部分介绍了一个
    发表于 12-27 14:50

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 696次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    学习任务、上下文长度、记忆和隐藏状态提高适应性。 任务适应 依赖数据采集和微调,可能效率较低。 利用复杂指令并自动多样的上下
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    出现重大问题。此外,机器人在不同环境中适应和泛化的能力取决于它处理数据的多样性。例如,家庭服务机器人必须适应各种家庭环境和任务,要求它们
    发表于 12-24 00:33

    zeta在机器学习中的应用 zeta的优缺点分析

    的应用(基于低功耗广域物联网技术ZETA) ZETA作为一种低功耗广域物联网(LPWAN)技术,虽然其直接应用于机器学习的场景可能并不常见,但它可以通过提供高效、稳定的物联网通信支持,间接促进机器
    的头像 发表于 12-20 09:11 1624次阅读

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习中的作用 模型评估 :比较不同模型的性能是
    的头像 发表于 12-17 09:35 1318次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 673次阅读