0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习的任务:从学术论文中学习数据预处理

如意 来源:百家号 作者: 读芯术 2020-07-01 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为工作中最关键的部分,数据预处理同时也是大多数数据科学家耗时最长的项目,他们大约80%的时间花在这上面。

这些任务有怎样重要性?有哪些学习方法和技巧?本文就将重点介绍来自著名大学和研究团队在不同培训数据主题上的学术论文。主题包括人类注释者的重要性,如何在相对较短的时间内创建大型数据集,如何安全处理可能包含私人信息的训练数据等等。

1. 人类注释器(human annotators)是多么重要?

机器学习的任务:从学术论文中学习数据预处理

本文介绍了注释器质量如何极大地影响训练数据,进而影响模型的准确性的第一手资料。在这个情绪分类项目里,Joef Stefan研究所的研究人员用多种语言分析了sentiment-annotated tweet的大型数据集。

有趣的是,该项目的结果表明顶级分类模型的性能在统计学上没有重大差异。相反,人类注释器的质量是决定模型准确性的更大因素。

为了评估他们的注释器,团队使用了注释器之间的认同过程和自我认同过程。研究发现,虽然自我认同是去除表现不佳的注释器的好方法,但注释者之间的认同可以用来衡量任务的客观难度。

研究论文:《多语言Twitter情绪分类:人类注释器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均来自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.机器学习的数据收集调查

机器学习的任务:从学术论文中学习数据预处理

这篇论文来自韩国先进科学技术研究所的一个研究团队,非常适合那些希望更好地了解数据收集、管理和注释的初学者。此外,本文还介绍和解释了数据采集、数据扩充和数据生成的过程。

对于刚接触机器学习的人来说,这篇文章是一个很好的资源,可以帮助你了解许多常见的技术,这些技术可以用来创建高质量的数据集。

研究论文:《机器学习的数据收集调查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均来自韩国科学技术院)

出版/最后更新日期:2019年8月12日

3.用于半监督式学习和迁移学习的高级数据增强技术

机器学习的任务:从学术论文中学习数据预处理

目前数据科学家面临的最大问题之一就是获得训练数据。也可以说,深度学习所面临最大的问题之一,是大多数模型都需要大量的标签数据才能以较高的精度发挥作用。

为了解决这些问题,来自谷歌和卡内基·梅隆大学的研究人员提出了一个在大幅降低数据量的情况下训练模型的框架。该团队提出使用先进的数据增强方法来有效地将噪音添加到半监督式学习模型中使用的未标记数据样本中,这个框架能够取得令人难以置信的结果。

该团队表示,在IMDB文本分类数据集上,他们的方法只需在20个标记样本上进行训练,就能够超越最先进的模型。此外,在CIFAR-10基准上,他们的方法表现优于此前所有的方法。

论文题目:《用于一致性训练的无监督数据增强》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大脑团队, 2 – 卡耐基·梅隆大学)

发布日期 / 最后更新:2019年9月30日

4.利用弱监督对大量数据进行标注

对于许多机器学习项目来说,获取和注释大型数据集需要花费大量的时间。在这篇论文中,来自斯坦福大学的研究人员提出了一个通过称为“数据编程”的过程自动创建数据集的系统。

机器学习的任务:从学术论文中学习数据预处理

上表是直接从论文中提取的,使用数据编程(DP)显示了与远程监督的ITR方法相比的精度、召回率和F1得分。

该系统采用弱监管策略来标注数据子集。产生的标签和数据可能会有一定程度的噪音。然而,该团队随后通过将训练过程表示为生成模型,从数据中去除噪音,并提出了修改损失函数的方法,以确保它对“噪音感知”。

研究论文:《数据编程:快速创建大型训练集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均来自斯坦福大学)

发布/最后更新日期:2017年1月8日

5.如何使用半监督式知识转移来处理个人身份信息(PII)

机器学习的任务:从学术论文中学习数据预处理

来自谷歌和宾夕法尼亚州立大学的研究人员介绍了一种处理敏感数据的方法,例如病历和用户隐私信息。这种方法被称为教师集合私有化(PATE),可以应用于任何模型,并且能够在MNIST和SVHN数据集上实现最先进的隐私/效用权衡。

然而,正如数据科学家Alejandro Aristizabal在文章中所说,PATE所设计的一个主要问题为该框架要求学生模型与教师模型共享其数据。在这个过程中,隐私得不到保障。

为此Aristizabal提出了一个额外的步骤,为学生模型的数据集加密。你可以在他的文章Making PATEBidirectionally Private中读到这个过程,但一定要先阅读其原始研究论文。

论文题目:《从隐私训练数据进行深度学习的半监督式知识转移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(宾夕法尼亚州立大学)、Martin Abadi(谷歌大脑)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大脑)、Kunal Talwar(谷歌大脑)。

发布日期 / 最后更新:2017年3月3日

阅读顶尖学术论文是了解学术前沿的不二法门,同时也是从他人实践中内化重要知识、学习优秀研究方法的好办法,多读读论文绝对会对你有帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
  • 论文
    +关注

    关注

    1

    文章

    103

    浏览量

    15432
  • 数据预处理
    +关注

    关注

    1

    文章

    20

    浏览量

    3005
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据处理
    的头像 发表于 04-24 15:48 61次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:<b class='flag-5'>从</b>“验证”到“标记”

    大唐微电子亮相ICCCS 2026国际计算机与通信系统学术会议

    4月17日至20日,第十一届国际计算机与通信系统学术会议(ICCCS 2026)在武汉举行。大唐微电子技术有限公司技术团队提交在无人机通信安全领域的学术论文荣获大会最佳论文奖,展现了大唐微电子在应用密码学与低空安全领域的技术实力
    的头像 发表于 04-21 17:09 780次阅读

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都
    的头像 发表于 02-10 15:58 451次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>特征工程:分类变量的数值化<b class='flag-5'>处理</b>方法

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器
    的头像 发表于 02-04 14:44 685次阅读

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉你,而是把环境、动作和结果连起来,让
    的头像 发表于 01-31 09:34 832次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    数据预处理软核加速模块设计

    拼接操作,其预处理模块结构框图如下图 模块最后得到的信号为ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits图像数据,ddr_clk是RAM的出口时钟,同时引出作为下一模块的数据时钟,ddr_w
    发表于 10-29 08:09

    思必驰与上海交大联合实验室五篇论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,思必驰-上海交大联合实验室共有5篇论文被收录。
    的头像 发表于 10-23 15:24 1108次阅读
    思必驰与上海交大联合实验室五篇<b class='flag-5'>论文</b>入选NeurIPS 2025

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组
    的头像 发表于 09-15 10:27 955次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中
    发表于 07-31 11:38

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模
    的头像 发表于 07-16 15:34 3098次阅读

    思必驰与上海交大联合实验室两篇论文入选ICML 2025

    ICML(International Conference on Machine Learning)是机器学习领域的顶级学术会议之一,由国际机器学习
    的头像 发表于 06-16 09:23 1613次阅读
    思必驰与上海交大联合实验室两篇<b class='flag-5'>论文</b>入选ICML 2025

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用ModbusTCP寄存器获取的实时
    的头像 发表于 06-11 17:22 1155次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理模型部署与工业集成!

    机器学习赋能的智能光子学器件系统研究与应用

    腾讯会议---六月直播 1.机器学习赋能的智能光子学器件系统研究与应用 2.COMSOL声学多物理场仿真技术与应用 3.超表面逆向设计及前沿应用(基础入门到论文复现) 4.智能光学计
    的头像 发表于 06-04 17:59 763次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>赋能的智能光子学器件系统研究与应用

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,
    的头像 发表于 05-16 14:48 1601次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>