我们在进行机器学习过程中一个通用步骤主要有以下几个方面:
1)明确问题
实现什么目标
需要什么数据这个问题:如果公司有大量的数据,可以确定最终的目标是什么;如果没有则需要通过目标来确定数据集
2)获取数据
自己公司内部的数据(项目上使用),如数据库等
开源数据集,如:UCI、GoogleTrends、Kaggle、AWS公用数据集、Imagenet、MINIST、麻省理工大学人脸识别、歌曲数据库、图像处理COCO、视频数据集youtube等等
3)数据格式整理
往往我们的数据大多都是数据库文件数据,并不是里面所有的维度信息都是需要用到的,所以这里需要进行相应的处理。
把收集到的数据转换为txt,csv,xsl等的形式,方便机器学习库进行读取
原始数据的所有的变量量化,进一步转变为含数据(Data)和标签(Labels)的数据框形式,方便建模。
4)数据预处理
偏差检测:即检查导致偏差的因素,并识别离散值与噪声值。
数据清洗:即处理缺失值与噪声。
数据标准化
5)数据拆分
将数据集随机打乱按照7:3或者8比2或者其他拆分为训练集和测试集。
6)根据场景采用不同的合适机器学习模型
考虑因素:
数据的维度大小,数据的质量和数据的特征属性;
可以利用的计算资源;
所在的项目组对该项目的时间预计;
手上的数据能应用在哪些项目中;
选择的依据如果要进行降维操作,那么你可以使用主成分分析方法(PCA);
如果要快速进行手写数字预测,那么你可以使用决策树或者逻辑回归;
如果要进行数据分层操作,那么你可以使用分层聚类。
7)设置损失函数loss
0-1损失函数也就是说,当预测错误时,损失函数为1,当预测正确时,损失函数值为0。该损失函数不考虑预测值和真实值的误差程度。只要错误,就是1。
平方损失函数是指预测值与实际值差的平方。
绝对值损失函数该损失函数的意义和上面差不多,只不过是取了绝对值而不是求绝对值,差距不会被平方放大。
对数损失函数
Hingeloss
8)设置学习率
对于不同大小的数据集,调节不同的学习率
在每次迭代中调节不同的学习率
9)测试,检验
综上整个大致流程如图所示:

责任编辑人:CC
相关推荐
活动内容 人工智能技术将在未来对传统产业产生重大颠覆性影响,人工智能将在各行各业为创新设计带来新的动力,它也将催生新的
发烧友学院发表于 2018-03-29 00:00
•
1556次阅读

机器学习的基本过程,罗列了几个主要流程和关键要素;继而展开介绍机器学习主要的算法框架,包括监督学习算....
发表于 2020-11-12 10:28•
0次阅读

什么是机器学习?机器学习是英文名称MachineLearning(简称ML)的直译。机器学习涉及概率....
发表于 2020-11-12 10:19•
3次阅读

当下,新闻报道总在介绍AI技术如何给不同行业带来深远影响。从制造业到金融业、从零售业到制药业、从医疗....
发表于 2020-11-11 15:23•
196次阅读

潘振岗指出,历史上每一次移动通信技术的更新换代,在大多数性能指标上都会有十倍到百倍的提升,包括峰值速....
发表于 2020-11-11 14:15•
129次阅读

经常在网络上看到人工智能、机器学习、深度学习这些词汇,但真正理解它们的人却少之又少,多数人对这词汇的....
发表于 2020-11-11 11:15•
221次阅读

集成学习是功能强大的机器学习技术之一。集成学习通过使用多种机器学习模型来提高预测结果的可靠性和准确性....
发表于 2020-11-11 11:13•
102次阅读

11月11日凌晨消息,苹果公司今日举办线上发布会,正式推出首款自研芯片,以及采用这颗芯片的三款电脑产....
发表于 2020-11-11 11:05•
250次阅读

作为莱迪思推出的业界第一款用于网络边缘设备端AI处理的完整解决方案集合,sensAITM提供了供开发....
发表于 2020-11-11 09:42•
110次阅读

GNN的架构在宏观层面有着很多与传统CNN类似的地方,比如卷积层、Polling、激活函数、机器学习....
发表于 2020-11-11 09:26•
142次阅读

机器学习(ML)是教导计算机系统根据一组数据进行预测的过程。通过为系统提供一系列的试验和错误场景,机....
发表于 2020-11-10 17:09•
156次阅读

远也科技CEO丁也博士表示:“肌肉外甲是我们自主研发的新型可穿戴机器人,将服务有行动功能障碍的人群,....
发表于 2020-11-10 15:51•
192次阅读

机器学习和人工智能将会继续深入IT服务领域,并为软件工程师开发的应用程序提供补充。如果IT团队想跟上....
发表于 2020-11-10 14:14•
129次阅读

使用边缘技术,可以在更靠近边缘的地方运行人工智能和机器学习工作负载,而不必向云端发送大量数据。这些设....
发表于 2020-11-10 14:06•
239次阅读

古代地图可以帮助我们了解几个世纪前的风景。但是如果我们用现代的镜头来观察这些古老的地图,我们会看到什....
发表于 2020-11-10 11:53•
240次阅读

据麦姆斯咨询报道,全球AI软件公司Elliptic Labs近日宣布与世界领先的专业半导体公司Med....
发表于 2020-11-09 14:12•
219次阅读

然而在此过程中,我们除了看到AI对算力的要求以外,内存带宽也是限制AI芯片发展的另一个关键要HBM2....
发表于 2020-11-09 12:45•
390次阅读

机器学习应用程序的日益重要,也推动了技术的开发,而更小、更节能的计算机芯片则一直是研究的重要方向之一....
发表于 2020-11-09 11:16•
182次阅读

深度学习是机器学习的一个分支,它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复....
发表于 2020-11-09 09:39•
100次阅读

一提到人工智能,很多人都会想到不简单,头脑一般的人根本学不进去,格物斯坦表示:在学人工智能之前,要掌....
发表于 2020-11-08 10:06•
461次阅读

2020年9月,美国陆军发布《小型无人机系统(SUAS)战略》,该战略描述了陆军如何调整资源、管理流....
发表于 2020-11-08 09:22•
300次阅读

本月的排行榜出现了自 TIOBE 榜单发布以来,近二十年从未见过的变化:前两名的位置首次出现了一个除....
发表于 2020-11-07 10:54•
285次阅读

随着无线电终端和物联网设备的爆炸性增长,无线电频谱正在变得越来越拥挤,识别、定位和阻断干扰信号变得异....
发表于 2020-11-07 09:45•
255次阅读

刚开始学习数据科学时,笔者经常面临这样一个问题:遇到具体问题,选择何种算法才合适。也许你也和我一样,....
发表于 2020-11-06 16:31•
204次阅读

强化学习属于机器学习中的一个子集,它使代理能够理解在特定环境中执行特定操作的相应结果。目前,相当一部....
发表于 2020-11-06 15:33•
273次阅读

日前,远也科技推出了国内首款肌肉外甲,这是一款自主研发的新型可穿戴机器人,将服务有行动功能障碍的人群....
发表于 2020-11-06 13:20•
257次阅读

人工智能在市场营销领域取得的成功,揭示了人类的一些思维和行为模式,这些模式可以转化为其他应用程序。
发表于 2020-11-06 11:38•
257次阅读

据芯华章科技创始人、董事长兼CEO王礼宾透露,芯华章即将推出市场上首款支持国产计算机架构的国产验证E....
发表于 2020-11-05 16:44•
129次阅读

距离全球被乔治·弗洛伊德(George Floyd)被跪害惨案震惊仅仅过了三个月。在美国的集体记忆中....
发表于 2020-11-05 14:59•
347次阅读

愚者多怨,仁者不言,生活中就是会有很多爱唱反调的人,但不管怎么说Python 在接下来十年仍然会很重....
发表于 2020-11-05 14:38•
218次阅读

在这样的背景之下,我国也非常重视Python的教育:浙江已经把Python列为中学生必修项目;山东、....
发表于 2020-11-05 14:09•
456次阅读

如今人们总是能听到有关机器学习的新闻,而机器学习技术确实有更多发展潜力。调研机构Gartner公司预....
发表于 2020-11-05 13:55•
235次阅读

关于姚期智在2020年浦江创新论坛的演讲,迄今为止只见到头条推送的两篇报道,即图灵奖唯一华人得主PP....
发表于 2020-11-05 10:50•
602次阅读

Google承诺使用Document AI Platform来自动化该过程。它在统一的仪表板上将Go....
发表于 2020-11-05 10:30•
264次阅读

在人工神经网络课程之后,有一位同学课下问了一个问题,她这学期也在学习机器学习课程,感觉人工神经网络课....
发表于 2020-11-05 10:02•
420次阅读

本期导读 MLPerf 组织最近发布了最新一轮机器学习性能测试结果,首次直接参加此次测试的新力量 赛....
发表于 2020-11-05 09:46•
385次阅读

剑桥量子计算公司 (CQC) 今天宣布了一项与霍尼韦尔量子解决方案的协议。据此协议,CQC将获得访问....
发表于 2020-11-05 09:14•
255次阅读

原标题:3.5亿抑郁症患者背后,谷歌AI做了什么? 抑郁症,似乎离我们很近又很远。 我们会在社交网络....
发表于 2020-11-04 17:57•
410次阅读

如今,人工智能的炒作无处不在,很多全球科技厂商都在开发和应用人工智能技术,以获得理想的投资回报率。但....
发表于 2020-11-04 17:05•
512次阅读

据国外媒体报道,英特尔继续通过收购优质的初创公司,深耕机器学习和人工智能领域。该公司近日收购了一家以....
发表于 2020-11-04 16:26•
303次阅读

根据英伟达官方的消息,在 AWS 运行 NVIDIA GPU 十周年之际,AWS 发布了采用全新 A....
发表于 2020-11-04 15:34•
262次阅读

数据和机器学习算法所带来的洞察可能是无价之宝,但是错误会损害你的声誉,影响你的收入甚至生命安全。这些....
发表于 2020-11-04 10:18•
356次阅读

交友APP或许很多人都用过。约会AI的基本目标是为客户配对,直到他们找到理想的伴侣。在很久以前,这个....
发表于 2020-11-03 16:43•
286次阅读

深度学习、机器学习、人工智能——这些流行词皆代表了分析学的未来。在这篇文章中,我们将通过一些真实世界....
发表于 2020-11-03 15:36•
347次阅读

TinyML是深度学习和人工智能领域的最新技术。它带来了在随处可见的微控制器(几乎是最小的电子芯片)....
发表于 2020-11-03 14:58•
279次阅读

土耳其语的「他」和「她」没有性别的区分,统一用 O 表示。过去 Google Translate 在....
发表于 2020-11-03 10:47•
248次阅读

根据AMD此前的介绍,CDNA架构专门针对GPU计算进行优化,专注于计算/张量操作性能,从而加速机器....
发表于 2020-11-03 10:18•
378次阅读

看到这个问题后,Google 意识到要想办法更好地训练模型,让它变得更加「中立」。后来 Google....
发表于 2020-11-03 10:01•
318次阅读

随着这个智能物联的时代不断前行,不仅仅带来无限的便捷,同时也带来了网络安...
发表于 2020-11-03 09:09•
0次阅读

人工智能时代,机器学习,尤其是深度学习,在各行各业中得到了越来越广泛的应用。比如智能交互、人机交流、....
发表于 2020-11-02 17:48•
873次阅读

导读 今天给大家介绍半监督学习中的3个最基础的概念:一致性正则化,熵最小化和伪标签,并介绍了两个经典....
发表于 2020-11-02 16:14•
191次阅读

导读 最基础的半监督学习的概念,给大家一个感性的认识。 半监督学习(SSL)是一种机器学习技术,其中....
发表于 2020-11-02 16:08•
245次阅读

1.引文 情感分析 知识 当training数据不足以覆盖inference阶段遇到的特征时,是标注....
发表于 2020-11-02 16:05•
237次阅读

什么是关系抽取 知识就是力量。使人类及机器能够更好地利用知识是提升工作效率及实现人工智能的关键所在,....
发表于 2020-11-02 15:43•
365次阅读

目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑运用多种机器学习(深度学习 + 传统机器....
发表于 2020-11-02 15:37•
581次阅读

随着 Xbox Series X 和 PlayStation 5 距离各自的上市只有两周不到的时间,....
发表于 2020-11-02 15:26•
257次阅读

毫无疑问,人工智能(AI)和机器学习(ML)正在成为金融科技行业的热门话题。几乎在所有的研讨会和会议....
发表于 2020-11-02 15:13•
446次阅读

虽然人工智能融合到商业具有很高的商业价值,但通常这个价值还不能抵消把模型应用到商业中所需的计算成本。....
发表于 2020-11-02 15:02•
300次阅读

无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是....
发表于 2020-11-02 14:57•
357次阅读

簡介人工智慧(AI)
人工智慧的定義
• 人工智慧(Artificial intelligence,簡稱AI),是指讓電腦能夠表現出與人...
发表于 2020-11-02 11:56•
202次阅读

随着新冠病毒在全球蔓延,越来越多的公司正面临着很多与之前不同的新问题。比如,如何保持公司对于客户需求....
发表于 2020-11-02 10:43•
213次阅读

任务十四:从连连看出发
目标:
1. 前面说明了,许多人认为,在AI领域里的天字第1号术语是:特征(Feature)。
2....
发表于 2020-10-30 15:24•
101次阅读

1.1、USB数据传输方法 数据在USB线里传送是由低位到高位发送的。 ...
发表于 2020-10-13 08:01•
101次阅读

EDA 中的大部分设计问题都属于 NP-hard 问题,由于不存在解决这些问题的多项式时间算法,因此无法通过分析确定最...
发表于 2020-09-03 01:15•
910次阅读

机器学习日志
发表于 2020-07-08 12:54•
119次阅读

机器学习小白第一周自我总结
发表于 2020-07-08 08:27•
133次阅读

链接: 提取码:2ja8
发表于 2020-06-28 18:46•
728次阅读

吴恩达机器学习Coursera-week10
发表于 2020-06-19 11:22•
1882次阅读

机器学习笔记:BP推导
发表于 2020-06-15 17:11•
187次阅读

评论