如何使用python进行第一个机器学习项目（详细教程篇）-电子发烧友网

你是否想使用python进行机器学习但却难以入门？

在这篇教程中，你将用Python完成你的第一个机器学习项目。

在以下的教程中，你将学到：

1.下载并安装Python SciPy，为Python中的机器学习安装最有用的软件包。

2.使用统计摘要和数据可视化加载数据集并了解其结构。

3.创建6个机器学习模型，并挑选出最佳模型以确保准确性。

如果你是一个机器学习初学者，并希望开始使用Python进行你的机器学习项目，那么本教程是为你量身打造的。

话不多说，开始正题吧

如何使用Python开始机器学习？

学习机器学习的最好方式是设计和完成小型项目。

在入门Python时遇到的困难

Python是一种当下流行并且功能强大的解释型语言。与R语言不同，Python是一个完善的语言和平台，能用来研究和开发。

还有很多模块和库可以选择，提供多种方式来完成每个任务。

开始使用Python进行机器学习的最好方法是完成一个项目。

它将促使你安装并启动Python解释器。

它让你全面的观察如何开发一个小项目。

它会给你信心，也许还会驱动你继续做自己的小项目。

初学者需要一个小型的端到端项目

很多书籍和课程让人失望。他们给你很多方法和片段，但你永远不会看到他们如何融合在一起。

当你将机器学习应用在自己的数据集时，你已经开始了一个项目。

机器学习项目可能不是线性的，但它有许多典型的步骤：

定义问题

准备数据

评估算法。

改善成绩。

得到结果。

真正开始新平台或工具的最好的方法是通过一个机器学习项目进行端到端的工作，并覆盖关键步骤。也就是从加载数据、总结数据、评估算法和做出一些预测。

如果可以这样做，你将有一个可以在数据集之后使用数据集上的模板。一旦你有更多的信心，你可以进一步的填补数据和改进结果的任务.

机器学习的Hello World

开始使用新工具的最好的小项目是鸢尾花的分类（如鸢尾花数据集 https://archive.ics.uci.edu/ml/datasets/Iris）。

这是一个很好理解的项目。

属性是数值型的，因此你必须弄清楚如何加载和处理数据。

这是一个分类问题，让你可以练习更简单的监督学习算法。

这是一个多类的分类问题（多项式），可能需要一些专门的处理。

它只有4种属性和150行，这意味着它很小，很容易适应内存(以及屏幕或A4页面)。

所有的数值属性都是相同的单位和相同的比例，不需要任何特殊的缩放或变换就可以开始。

让我们开始使用Python中的hello world机器学习项目。

Python中的机器学习：分步教程

在本节中，我们将通过端到端的小型机器学习项目进行工作。

以下是我们将要介绍的内容：

安装Python和SciPy平台

加载数据集

汇总数据集

可视化数据集

评估一些算法

做一些预测

慢慢来，一步一步做。

你可以尝试自己输入命令也可以通过复制粘贴来加快速度。

下载，安装和启动Python SciPy

如果你的系统上尚未安装，请安装Python和SciPy平台。

我不想太详细地介绍这个，因为有别人已经介绍过了，这对一个开发人员来说很简单。

1.1安装SciPy库

本教程假设Python版本为2.7或3.5。

你需要安装5个关键库。以下是本教程所需的Python SciPy库列表：

SciPy

numpy

matplotlib

pandas

sklearn

有很多方法来安装这些库，我的建议是选择一种方法，然后在安装每个库时保持一致。

该SciPy的安装页面（https://www.scipy.org/install.html）对多个不同的平台提供了极好的说明书，如Linux，Mac OS X和Windows。如果你有任何疑问或疑问，请参阅本说明。

在Mac OS X上，你可以使用macports来安装Python 2.7和这些库。

在Linux上，你可以使用包管理器，例如Fedora上的yum来安装RPM。

如果你使用Windows或者你没什么信心，我建议安装免费版本的Anaconda（https://www.anaconda.com/download/），其中包含你需要的一切。

注意：本教程假设你已经安装scikit-learn版本0.18或更高版本。

1.2启动Python并检查版本

确保你的Python环境安装成功并按预期工作，这是很有必要的。

下面的脚本将帮助你测试你的环境。它导入本教程中所需的每个库并打印出版本。

打开命令行并启动python解释器：

python

我建议直接在解释器中工作，或者编写脚本并在命令行上运行它们，而不是用大型编辑器和IDE。不要很复杂的操作，把中心放在机器学习而不是工具链上。

键入或者复制粘贴以下脚本：

01	# Check the versions of libraries

03	# Python version

importsys

05	print('Python: {}'.format(sys.version))

# scipy

07	importscipy

08	print('scipy: {}'.format(scipy.__version__))

# numpy

10	importnumpy

11	print('numpy: {}'.format(numpy.__version__))

12	# matplotlib

13	importmatplotlib

14	print('matplotlib: {}'.format(matplotlib.__version__))

# pandas

16	importpandas

17	print('pandas: {}'.format(pandas.__version__))

18	# scikit-learn

19	importsklearn

20	print('sklearn: {}'.format(sklearn.__version__))

这是我在我的OS X工作站上得到的输出：

1	Python:2.7.11(default, Mar12016,18:40:10)

2	[GCC4.2.1Compatible Apple LLVM7.0.2(clang-700.1.81)]

3	scipy:0.17.0

4	numpy:1.10.4

5	matplotlib:1.5.1

6	pandas:0.17.1

7	sklearn:0.18.1

将以上输出与你的版本进行比较。

理想情况下，你的版本应该匹配或更新。这些API不会很快改变，所以如果你的版本更高，不必担心，本教程中的所有内容很有可能仍然适用于你。

如果你出现错误，请停止。现在是修复它的时候了。

如果你无法正常运行上述脚本，你将无法完成本教程。

我最好的建议是在Google上搜索你的错误信息。

加载数据

我们将使用鸢尾花数据集。这个数据集很有名，因为它被用作机器学习和统计中的“hello world”。

该数据集包含150个鸢尾花观测值。有四列测量花的尺寸。第五列是观察到的花的种类。所有观察到的花属于三种物种之一。

在此步骤中，我们将从CSV文件的URL加载鸢尾数据。

2.1导入库

首先，我们将导入我们将在本教程中使用的所有模块，函数和对象。

01	# Load libraries

02	importpandas

03	frompandas.tools.plottingimportscatter_matrix

04	importmatplotlib.pyplot as plt

05	fromsklearnimportmodel_selection

06	fromsklearn.metricsimportclassification_report

07	fromsklearn.metricsimportconfusion_matrix

08	fromsklearn.metricsimportaccuracy_score

09	fromsklearn.linear_modelimportLogisticRegression

10	fromsklearn.treeimportDecisionTreeClassifier

11	fromsklearn.neighborsimportKNeighborsClassifier

12	fromsklearn.discriminant_analysisimportLinearDiscriminantAnalysis

13	fromsklearn.naive_bayesimportGaussianNB

14	fromsklearn.svmimportSVC

这些加载正常情况下是没错的。如果出现错误，请停止。回到上面，你需要一个可行的SciPy环境。请参阅上面关于设置环境的建议。

2.2加载数据集

我们可以直接从UCI机器学习存储库加载数据。

我们正在使用pandas来加载数据。我们还将使用pandas来探索具有描述性统计数据和数据可视化的数据。

请注意，我们在装载数据时指定了每个列的名称。这有助于我们稍后研究数据。

1	# Load dataset

2	url="https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

3	names=['sepal-length','sepal-width','petal-length','petal-width','class']

4	dataset=pandas.read_csv(url, names=names)

数据集应该会加载的很顺利

如果你有网络问题，可以下载iris数据（https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data）。将文件放入工作目录，并使用相同的方法加载它，将URL更改为本地文件名。

汇总数据集

现在是查看数据的时候了。

在这一步中，我们将以几种不同的方式来查看数据：

数据集的维度。

仔细观察数据本身。

所有属性的统计汇总。

按类变量细分数据。

记住查看数据，一个数据集就是一个命令。这些都是有用的命令，你可以在以后的项目中反复使用。

3.1数据集的尺寸

我们可以快速通过shape属性了解数据中包含多少个实例（行）和多少个属性（列）

# shape

2	print(dataset.shape)

你应该看到150个实例和5个属性：

(150,5)

3.2观察数据

仔细观察你的数据

# head

2	print(dataset.head(20))

你应该会看到数据的前20行：

01	sepal-length sepal-width petal-length petal-widthclass

02	05.13.51.40.2Iris-setosa

03	14.93.01.40.2Iris-setosa

04	24.73.21.30.2Iris-setosa

05	34.63.11.50.2Iris-setosa

06	45.03.61.40.2Iris-setosa

07	55.43.91.70.4Iris-setosa

08	64.63.41.40.3Iris-setosa

09	75.03.41.50.2Iris-setosa

10	84.42.91.40.2Iris-setosa

11	94.93.11.50.1Iris-setosa

12	105.43.71.50.2Iris-setosa

13	114.83.41.60.2Iris-setosa

14	124.83.01.40.1Iris-setosa

15	134.33.01.10.1Iris-setosa

16	145.84.01.20.2Iris-setosa

17	155.74.41.50.4Iris-setosa

18	165.43.91.30.4Iris-setosa

19	175.13.51.40.3Iris-setosa

20	185.73.81.70.3Iris-setosa

21	195.13.81.50.3Iris-setosa

3.3统计汇总

现在我们可以看一下每个属性的总结。

这包括计数，平均值，最小值和最大值以及一些百分位数。

1	# descriptions

2	print(dataset.describe())

我们可以看到，所有的数值都有相同的单位（厘米），范围在0到8厘米之间。

1	sepal-length sepal-width petal-length petal-width

2	count150.000000150.000000150.000000150.000000

3	mean5.8433333.0540003.7586671.198667

4	std0.8280660.4335941.7644200.763161

5	min4.3000002.0000001.0000000.100000

6	25%5.1000002.8000001.6000000.300000

7	50%5.8000003.0000004.3500001.300000

8	75%6.4000003.3000005.1000001.800000

9	max7.9000004.4000006.9000002.500000

3.4分类

现在来看看属于每个类的实例（行）的数量。我们可以将其视为绝对数。

1	# class distribution

2	print(dataset.groupby('class').size())

我们可以看到每个类具有相同数量的实例（50或者说33％的数据集）。

class

2	Iris-setosa50

3	Iris-versicolor50

4	Iris-virginica50

数据可视化

我们现在对数据有一个基本的了解。我们需要通过一些可视化来让自己更了解它。

我们要看两种图：

单变量图让你更好地了解每个属性。

多变量图让你更好地了解属性之间的关系。

4.1单变量图

我们从一些单变量开始，即每个变量的曲线。

鉴于输入变量是数值型，我们可以创建每个输入变量的盒型图。

1	# box and whisker plots

2	dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)

3	plt.show()

这使我们对输入属性的分布有了更清晰的认识,我们还可以创建每个输入变量的直方图来获得分布的概念。

1	# histograms

2	dataset.hist()

3	plt.show()

看起来可能有两个输入变量具有高斯分布。这一点很有用，因为我们可以使用这种假设比较算法的准确性。

4.2多变量图

现在我们可以看一下变量之间的相互作用。

首先，我们来看看所有属性对的散点图。这可以有助于发现输入变量之间的结构化关系。

1	# scatter plot matrix

2	scatter_matrix(dataset)

3	plt.show()

注意这些接近对角线的组，这是高度的相关性和可预测关系的表现。

评估算法

现在创建一些数据模型，并评估它们对未来数据预测的准确性。

下面是我们将要讨论的内容是:

抽离一个验证数据集。

设置测试工具使用10倍交叉验证。

建立5种不同的模型来预测花卉测量中的种类。

选择最好的模型。

5.1创建验证数据集

我们需要知道，我们创建的模型有什么用。

之后，我们将使用统计方法来估计我们在预测的数据上创建模型的准确性。我们还希望通过对实际预测数据进行评估，从而更具体地估计出最佳模型的准确性。

也就是说，我们将保留一些算法无法看到的数据，我们将利用这些数据来确定模型究竟有多精确。

我们将把加载的数据集分为两部分，其中80％将用于训练我们的模型，20％将被用作验证数据集。

1	# Split-out validation dataset

2	array=dataset.values

3	X=array[:,0:4]

4	Y=array[:,4]

5	validation_size=0.20

seed=7

7	X_train, X_validation, Y_train, Y_validation=model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

你现在可以在X_train和Y_train中训练数据为准备模型和X_validation和Y_validation集，因为我们一会儿用得上。

5.2测试工具

我们将使用10倍交叉验证来估计精度。

这将把我们的数据集分为10个部分，在9上训练，并在1上进行测试，并重复训练分组的所有组合。

1	# Test options and evaluation metric

seed=7

3	scoring='accuracy'

我们使用“accuracy” 的度量来评估模型。这是正确预测实例的数量除以数据集中的实例总数乘以100的百分比（例如95％准确）的比率。当我们运行构建并评估每个模型时，我们将使用评分变量。

5.3建立模型

我们不知道哪些算法对这个问题或什么配置使用是好的。我们从图中得出一些想法，即某些类在某些方面是部分可线性分离的，所以我们期望一般的结果很好。

我们来评估6种不同的算法：

逻辑回归（LR）

线性判别分析（LDA）

邻近算法（KNN）。

分类和回归树（CART）。

高斯朴素贝叶斯（NB）。

支持向量机（SVM）。

这是简单线性（LR和LDA），非线性（KNN，CART，NB和SVM）算法的良好混合。我们在每次运行之前重置随机数种子，以确保使用完全相同的数据分割来执行每个算法的评估。它确保结果直接可比。

我们来建立和评估我们的五个模型：

01	# Spot Check Algorithms

models=[]

03	models.append(('LR', LogisticRegression()))

04	models.append(('LDA', LinearDiscriminantAnalysis()))

05	models.append(('KNN', KNeighborsClassifier()))

06	models.append(('CART', DecisionTreeClassifier()))

07	models.append(('NB', GaussianNB()))

08	models.append(('SVM', SVC()))

09	# evaluate each model in turn

10	results=[]

names=[]

12	forname, modelinmodels:

13	kfold=model_selection.KFold(n_splits=10, random_state=seed)

14	cv_results=model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)

15	results.append(cv_results)

16	names.append(name)

17	msg="%s: %f (%f)"%(name, cv_results.mean(), cv_results.std())

18	print(msg)

5.4选择最佳模型

我们现在每个都有6个模型和精度估计。我们需要将模型相互比较，并选择最准确的。

运行上面的例子，我们得到以下原始结果：

LR: 0.966667 (0.040825)LDA: 0.975000 (0.038188)KNN: 0.983333 (0.033333)CART: 0.975000 (0.038188)NB: 0.975000 (0.053359)SVM: 0.981667 (0.025000)

我们可以看到，看起来KNN具有最高的估计精度分数。

我们还可以创建模型评估结果的图，并比较每个模型的差异和平均精度。每个算法有一个精确度量的群体，因为每个算法被评估10次（10次交叉验证）。

1	# Compare Algorithms

2	fig=plt.figure()

3	fig.suptitle('Algorithm Comparison')

4	ax=fig.add_subplot(111)

5	plt.boxplot(results)

6	ax.set_xticklabels(names)

7	plt.show()

你可以看到盒型图在顶部被压扁，许多样品达到100％的准确度。

做预测

KNN算法是我们测试的最精确的模型。现在我们想了解验证集上模型的准确性。

这让我们对最佳模型的准确性进行独立的最终检查。保持一个验证集是有用的，以防万一你在训练过程中犯错，比如过拟合或数据外泄。两者都将导致过于乐观的结果。

我们可以直接在验证集上运行KNN模型，并将结果总结为最终准确度分数，混淆矩阵和分类报告。

1	# Make predictions on validation dataset

2	knn=KNeighborsClassifier()

3	knn.fit(X_train, Y_train)

4	predictions=knn.predict(X_validation)

5	print(accuracy_score(Y_validation, predictions))

6	print(confusion_matrix(Y_validation, predictions))

7	print(classification_report(Y_validation, predictions))

我们可以看到准确度是0.9即90％。混淆矩阵提供了三个错误的指示。最后，分类报告通过精确度，召回率，f1分数和支撑显示出优异的结果（授予验证数据集很小）提供每个类别的细目。

view source

0.9

[[700]

[0111]

[029]]

07	precision recall f1-score support

09	Iris-setosa1.001.001.007

10	Iris-versicolor0.850.920.8812

11	Iris-virginica0.900.820.8611

13	avg/total0.900.900.9030

完成上面的教程，只需要5到10分钟。

概要

在这篇文章中，你会逐步发现如何在Python中完成第一个机器学习项目。

你将发现，完成一个小型的端到端项目并将数据加载到预测中，是熟悉新平台的最佳途径。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8104

浏览量
130540
python

python

+关注

关注
51

文章
4668

浏览量
83456

原文标题：教程篇 | 一步步教你如何使用python进行第一个机器学习项目

文章出处：【微信号：machinelearningai，微信公众号：机器学习算法与人工智能】欢迎添加关注！文章转载请注明出处。

Python机器学习常用库

、Scikit-Learn在机器学习和数据挖掘的应用中，Scikit-Learn是一个功能强大的Python包，我们可以用它

发表于 03-26 16:29

常用python机器学习库盘点

现在人工智能非常火爆，机器学习应该算是人工智能里面的一个子领域，而其中有一块是对文本进行分析，对

发表于 05-10 15:20

使用 Python 开始机器学习

StackOverFlow上找到关于很多问题详细解答（学习基石）。再次，一个强大的社区带来的副产品就是大量有用程序库（Python内部自带的

发表于 12-11 18:37

【EFM8 Universal Bee试用体验】开始EFM8第一个例程（全网最详细）

开始EFM8第一个例程（全网最详细）背景说明：上次详细介绍了EFM8开发环境，官方直接进行推荐，也众多发烧友关注，谢谢大家的支持，这也是笔者一

发表于 12-27 23:55

分享一个机器学习Demo，很受用

TensorFlow入门：第一个机器学习Demo

发表于 02-12 10:13

机器学习入门篇：一个完整的机器学习项目

机器学习项目入门篇：一个完整的机器

发表于 05-11 14:47

如何建立第一个C项目？

51单片机C语言学习杂记建立您的第一个C项目

发表于 03-02 07:33

Python机器学习入门之pandas的使用提示

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参

发表于 08-13 07:36

编写第一个真正的 Linux 字符设备驱动

前言上一章我们详细的讲解了字符设备驱动开发步骤，并且用一个虚拟的 chrdevbase 设备为例带领大家完成了第一个字符设备驱动的开发。本章

发表于 12-15 07:21

点亮人生中的第一个流水灯

上期回顾：上篇文章我写了单片机入门（二）：点亮奇数位/偶数位LED灯**单片机入门（4）：点亮人生中的第一个流水灯一、需求分析做一个简单的项目，我们也要对其

发表于 01-19 07:59

制作你的第一个电路来学习焊接

描述制作你的第一个电路来学习焊接

发表于 08-22 07:58

Python机器学习库和深度学习库总结

我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目，并挑选出最受欢迎和最活跃的

发表于 11-10 14:49 •746次阅读

从零到python机器学习大神的7个步骤

有许多python机器学习资源在线免费提供，从哪开始?如何进行?从零到python机器

发表于 11-15 12:29 •1.3w次阅读

Python编程和机器学习编程示范代码

机器学习离不开Python。所以，全球第一的AI教科书作者、Google Research总监Peter Novig就专门为初学者做了一个关于Pyt

发表于 12-21 16:49 •5501次阅读

python机器学习笔记资料免费下载

本文档的主要内容详细介绍的是python机器学习笔记资料免费python机器

发表于 03-01 10:09 •36次下载

搜索历史

如何使用python进行第一个机器学习项目（详细教程篇）

如何使用Python开始机器学习？

机器学习的Hello World

评论

Python机器学习常用库

常用python机器学习库盘点

使用 Python 开始机器学习

【EFM8 Universal Bee试用体验】开始EFM8第一个例程（全网最详细）

分享一个机器学习Demo，很受用

机器学习入门篇：一个完整的机器学习项目

如何建立第一个C项目？

Python机器学习入门之pandas的使用提示

编写第一个真正的 Linux 字符设备驱动

点亮人生中的第一个流水灯

制作你的第一个电路来学习焊接

Python机器学习库和深度学习库总结

从零到python机器学习大神的7个步骤

Python编程和机器学习编程示范代码

python机器学习笔记资料免费下载