如何使用python进行第一个机器学习项目(详细教程篇)

机器学习算法与人工智能 2018-02-10 03:10 次阅读

你是否想使用python进行机器学习但却难以入门?

在这篇教程中,你将用Python完成你的第一个机器学习项目。

在以下的教程中,你将学到:

1.下载并安装Python SciPy,为Python中的机器学习安装最有用的软件包。

2.使用统计摘要和数据可视化加载数据集并了解其结构。

3.创建6个机器学习模型,并挑选出最佳模型以确保准确性。

如果你是一个机器学习初学者,并希望开始使用Python进行你的机器学习项目,那么本教程是为你量身打造的。

话不多说,开始正题吧

如何使用Python开始机器学习?

学习机器学习的最好方式是设计和完成小型项目。

在入门Python时遇到的困难

Python是一种当下流行并且功能强大的解释型语言。与R语言不同,Python是一个完善的语言和平台,能用来研究和开发。

还有很多模块和库可以选择,提供多种方式来完成每个任务。

开始使用Python进行机器学习的最好方法是完成一个项目。

它将促使你安装并启动Python解释器。

它让你全面的观察如何开发一个小项目。

它会给你信心,也许还会驱动你继续做自己的小项目。

初学者需要一个小型的端到端项目

很多书籍和课程让人失望。他们给你很多方法和片段,但你永远不会看到他们如何融合在一起。

当你将机器学习应用在自己的数据集时,你已经开始了一个项目。

机器学习项目可能不是线性的,但它有许多典型的步骤:

定义问题

准备数据

评估算法。

改善成绩。

得到结果。

真正开始新平台或工具的最好的方法是通过一个机器学习项目进行端到端的工作,并覆盖关键步骤。也就是从加载数据、总结数据、评估算法和做出一些预测。

如果可以这样做,你将有一个可以在数据集之后使用数据集上的模板。一旦你有更多的信心,你可以进一步的填补数据和改进结果的任务.

如何使用python进行第一个机器学习项目(详细教程篇)

机器学习的Hello World

开始使用新工具的最好的小项目是鸢尾花的分类(如鸢尾花数据集 https://archive.ics.uci.edu/ml/datasets/Iris)。

这是一个很好理解的项目。

属性是数值型的,因此你必须弄清楚如何加载和处理数据。

这是一个分类问题,让你可以练习更简单的监督学习算法。

这是一个多类的分类问题(多项式),可能需要一些专门的处理。

它只有4种属性和150行,这意味着它很小,很容易适应内存(以及屏幕或A4页面)。

所有的数值属性都是相同的单位和相同的比例,不需要任何特殊的缩放或变换就可以开始。

让我们开始使用Python中的hello world机器学习项目。

Python中的机器学习:分步教程

在本节中,我们将通过端到端的小型机器学习项目进行工作。

以下是我们将要介绍的内容:

安装Python和SciPy平台

加载数据集

汇总数据集

可视化数据集

评估一些算法

做一些预测

慢慢来,一步一步做。

你可以尝试自己输入命令也可以通过复制粘贴来加快速度。

1

下载,安装和启动Python SciPy

如果你的系统上尚未安装,请安装Python和SciPy平台。

我不想太详细地介绍这个,因为有别人已经介绍过了,这对一个开发人员来说很简单。

1.1安装SciPy库

本教程假设Python版本为2.7或3.5。

你需要安装5个关键库。以下是本教程所需的Python SciPy库列表:

SciPy

numpy

matplotlib

pandas

sklearn

有很多方法来安装这些库,我的建议是选择一种方法,然后在安装每个库时保持一致。

该SciPy的安装页面(https://www.scipy.org/install.html)对多个不同的平台提供了极好的说明书,如Linux,Mac OS X和Windows。如果你有任何疑问或疑问,请参阅本说明。

在Mac OS X上,你可以使用macports来安装Python 2.7和这些库。

在Linux上,你可以使用包管理器,例如Fedora上的yum来安装RPM。

如果你使用Windows或者你没什么信心,我建议安装免费版本的Anaconda(https://www.anaconda.com/download/),其中包含你需要的一切。

注意:本教程假设你已经安装scikit-learn版本0.18或更高版本。

1.2启动Python并检查版本

确保你的Python环境安装成功并按预期工作,这是很有必要的。

下面的脚本将帮助你测试你的环境。它导入本教程中所需的每个库并打印出版本。

打开命令行并启动python解释器:

1 python

我建议直接在解释器中工作,或者编写脚本并在命令行上运行它们,而不是用大型编辑器和IDE。不要很复杂的操作,把中心放在机器学习而不是工具链上。

键入或者复制粘贴以下脚本:

01 # Check the versions of libraries
02  
03 # Python version
04 import sys
05 print('Python: {}'.format(sys.version))
06 # scipy
07 import scipy
08 print('scipy: {}'.format(scipy.__version__))
09 # numpy
10 import numpy
11 print('numpy: {}'.format(numpy.__version__))
12 # matplotlib
13 import matplotlib
14 print('matplotlib: {}'.format(matplotlib.__version__))
15 # pandas
16 import pandas
17 print('pandas: {}'.format(pandas.__version__))
18 # scikit-learn
19 import sklearn
20 print('sklearn: {}'.format(sklearn.__version__))

这是我在我的OS X工作站上得到的输出:

1 Python:2.7.11 (default, Mar 1 2016,18:40:10)
2 [GCC4.2.1 Compatible Apple LLVM7.0.2 (clang-700.1.81)]
3 scipy:0.17.0
4 numpy:1.10.4
5 matplotlib:1.5.1
6 pandas:0.17.1
7 sklearn:0.18.1

将以上输出与你的版本进行比较。

理想情况下,你的版本应该匹配或更新。这些API不会很快改变,所以如果你的版本更高,不必担心,本教程中的所有内容很有可能仍然适用于你。

如果你出现错误,请停止。现在是修复它的时候了。

如果你无法正常运行上述脚本,你将无法完成本教程。

我最好的建议是在Google上搜索你的错误信息

2

加载数据

我们将使用鸢尾花数据集。这个数据集很有名,因为它被用作机器学习和统计中的“hello world”。

该数据集包含150个鸢尾花观测值。有四列测量花的尺寸。第五列是观察到的花的种类。所有观察到的花属于三种物种之一。

在此步骤中,我们将从CSV文件的URL加载鸢尾数据。

2.1导入库

首先,我们将导入我们将在本教程中使用的所有模块,函数和对象。

01 # Load libraries
02 import pandas
03 from pandas.tools.plottingimport scatter_matrix
04 import matplotlib.pyplot as plt
05 from sklearnimport model_selection
06 from sklearn.metricsimport classification_report
07 from sklearn.metricsimport confusion_matrix
08 from sklearn.metricsimport accuracy_score
09 from sklearn.linear_modelimport LogisticRegression
10 from sklearn.treeimport DecisionTreeClassifier
11 from sklearn.neighborsimport KNeighborsClassifier
12 from sklearn.discriminant_analysisimport LinearDiscriminantAnalysis
13 from sklearn.naive_bayesimport GaussianNB
14 from sklearn.svmimport SVC

这些加载正常情况下是没错的。如果出现错误,请停止。回到上面,你需要一个可行的SciPy环境。请参阅上面关于设置环境的建议。

2.2加载数据集

我们可以直接从UCI机器学习存储库加载数据。

我们正在使用pandas来加载数据。我们还将使用pandas来探索具有描述性统计数据和数据可视化的数据。

请注意,我们在装载数据时指定了每个列的名称。这有助于我们稍后研究数据。

1 # Load dataset
2 url= "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
3 names= ['sepal-length','sepal-width','petal-length','petal-width','class']
4 dataset= pandas.read_csv(url, names=names)

数据集应该会加载的很顺利

如果你有网络问题,可以下载iris数据(https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data)。将文件放入工作目录,并使用相同的方法加载它,将URL更改为本地文件名。

3

汇总数据集

现在是查看数据的时候了。

在这一步中,我们将以几种不同的方式来查看数据:

数据集的维度。

仔细观察数据本身。

所有属性的统计汇总。

按类变量细分数据。

记住查看数据,一个数据集就是一个命令。这些都是有用的命令,你可以在以后的项目中反复使用。

3.1数据集的尺寸

我们可以快速通过shape属性了解数据中包含多少个实例(行)和多少个属性(列)

1 # shape
2 print(dataset.shape)

你应该看到150个实例和5个属性:

1 (150,5)

3.2观察数据

仔细观察你的数据

1 # head
2 print(dataset.head(20))

你应该会看到数据的前20行:

01     sepal-length  sepal-width  petal-length  petal-width       class
02 0            5.1          3.5           1.4          0.2  Iris-setosa
03 1            4.9          3.0           1.4          0.2  Iris-setosa
04 2            4.7          3.2           1.3          0.2  Iris-setosa
05 3            4.6          3.1           1.5          0.2  Iris-setosa
06 4            5.0          3.6           1.4          0.2  Iris-setosa
07 5            5.4          3.9           1.7          0.4  Iris-setosa
08 6            4.6          3.4           1.4          0.3  Iris-setosa
09 7            5.0          3.4           1.5          0.2  Iris-setosa
10 8            4.4          2.9           1.4          0.2  Iris-setosa
11 9            4.9          3.1           1.5          0.1  Iris-setosa
12 10           5.4          3.7           1.5          0.2  Iris-setosa
13 11           4.8          3.4           1.6          0.2  Iris-setosa
14 12           4.8          3.0           1.4          0.1  Iris-setosa
15 13           4.3          3.0           1.1          0.1  Iris-setosa
16 14           5.8          4.0           1.2          0.2  Iris-setosa
17 15           5.7          4.4           1.5          0.4  Iris-setosa
18 16           5.4          3.9           1.3          0.4  Iris-setosa
19 17           5.1          3.5           1.4          0.3  Iris-setosa
20 18           5.7          3.8           1.7          0.3  Iris-setosa
21 19           5.1          3.8           1.5          0.3  Iris-setosa

3.3统计汇总

现在我们可以看一下每个属性的总结。

这包括计数,平均值,最小值和最大值以及一些百分位数。

1 # descriptions
2 print(dataset.describe())

我们可以看到,所有的数值都有相同的单位(厘米),范围在0到8厘米之间。

1        sepal-length  sepal-width  petal-length  petal-width
2 count   150.000000   150.000000    150.000000   150.000000
3 mean      5.843333     3.054000      3.758667     1.198667
4 std       0.828066     0.433594      1.764420     0.763161
5 min        4.300000     2.000000      1.000000     0.100000
6 25%        5.100000     2.800000      1.600000     0.300000
7 50%        5.800000     3.000000      4.350000     1.300000
8 75%        6.400000     3.300000      5.100000     1.800000
9 max        7.900000     4.400000      6.900000     2.500000

3.4分类

现在来看看属于每个类的实例(行)的数量。我们可以将其视为绝对数。

1 # class distribution
2 print(dataset.groupby('class').size())

我们可以看到每个类具有相同数量的实例(50或者说33%的数据集)。

1 class
2 Iris-setosa       50
3 Iris-versicolor   50
4 Iris-virginica    50

4

数据可视化

我们现在对数据有一个基本的了解。我们需要通过一些可视化来让自己更了解它。

我们要看两种图:

单变量图让你更好地了解每个属性。

多变量图让你更好地了解属性之间的关系。

4.1单变量图

我们从一些单变量开始,即每个变量的曲线。

鉴于输入变量是数值型,我们可以创建每个输入变量的盒型图。

1 # box and whisker plots
2 dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
3 plt.show()

这使我们对输入属性的分布有了更清晰的认识,我们还可以创建每个输入变量的直方图来获得分布的概念。

1 # histograms
2 dataset.hist()
3 plt.show()

看起来可能有两个输入变量具有高斯分布。这一点很有用,因为我们可以使用这种假设比较算法的准确性。

4.2多变量图

现在我们可以看一下变量之间的相互作用。

首先,我们来看看所有属性对的散点图。这可以有助于发现输入变量之间的结构化关系。

1 # scatter plot matrix
2 scatter_matrix(dataset)
3 plt.show()

注意这些接近对角线的组,这是高度的相关性和可预测关系的表现。

5

评估算法

现在创建一些数据模型,并评估它们对未来数据预测的准确性。

下面是我们将要讨论的内容是:

抽离一个验证数据集。

设置测试工具使用10倍交叉验证。

建立5种不同的模型来预测花卉测量中的种类。

选择最好的模型。

5.1创建验证数据集

我们需要知道,我们创建的模型有什么用。

之后,我们将使用统计方法来估计我们在预测的数据上创建模型的准确性。我们还希望通过对实际预测数据进行评估,从而更具体地估计出最佳模型的准确性。

也就是说,我们将保留一些算法无法看到的数据,我们将利用这些数据来确定模型究竟有多精确。

我们将把加载的数据集分为两部分,其中80%将用于训练我们的模型,20%将被用作验证数据集。

1 # Split-out validation dataset
2 array= dataset.values
3 X= array[:,0:4]
4 Y= array[:,4]
5 validation_size= 0.20
6 seed= 7
7 X_train, X_validation, Y_train, Y_validation= model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

你现在可以在X_train和Y_train中训练数据为准备模型和X_validation和Y_validation集,因为我们一会儿用得上。

5.2测试工具

我们将使用10倍交叉验证来估计精度。

这将把我们的数据集分为10个部分,在9上训练,并在1上进行测试,并重复训练分组的所有组合。

1 # Test options and evaluation metric
2 seed= 7
3 scoring= 'accuracy'

我们使用“ accuracy” 的度量来评估模型。这是正确预测实例的数量除以数据集中的实例总数乘以100的百分比(例如95%准确)的比率。 当我们运行构建并评估每个模型时,我们将使用评分变量。

5.3建立模型

我们不知道哪些算法对这个问题或什么配置使用是好的。我们从图中得出一些想法,即某些类在某些方面是部分可线性分离的,所以我们期望一般的结果很好。

我们来评估6种不同的算法:

逻辑回归(LR)

线性判别分析(LDA)

邻近算法(KNN)。

分类和回归树(CART)。

高斯朴素贝叶斯(NB)。

支持向量机(SVM)。

这是简单线性(LR和LDA),非线性(KNN,CART,NB和SVM)算法的良好混合。我们在每次运行之前重置随机数种子,以确保使用完全相同的数据分割来执行每个算法的评估。它确保结果直接可比。

我们来建立和评估我们的五个模型:

01 # Spot Check Algorithms
02 models= []
03 models.append(('LR', LogisticRegression()))
04 models.append(('LDA', LinearDiscriminantAnalysis()))
05 models.append(('KNN', KNeighborsClassifier()))
06 models.append(('CART', DecisionTreeClassifier()))
07 models.append(('NB', GaussianNB()))
08 models.append(('SVM', SVC()))
09 # evaluate each model in turn
10 results= []
11 names= []
12 for name, modelin models:
13     kfold= model_selection.KFold(n_splits=10, random_state=seed)
14     cv_results= model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
15     results.append(cv_results)
16     names.append(name)
17     msg= "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
18     print(msg)


5.4选择最佳模型

我们现在每个都有6个模型和精度估计。我们需要将模型相互比较,并选择最准确的。

运行上面的例子,我们得到以下原始结果:

LR: 0.966667 (0.040825)LDA: 0.975000 (0.038188)KNN: 0.983333 (0.033333)CART: 0.975000 (0.038188)NB: 0.975000 (0.053359)SVM: 0.981667 (0.025000)

我们可以看到,看起来KNN具有最高的估计精度分数。

我们还可以创建模型评估结果的图,并比较每个模型的差异和平均精度。每个算法有一个精确度量的群体,因为每个算法被评估10次(10次交叉验证)。

1 # Compare Algorithms
2 fig= plt.figure()
3 fig.suptitle('Algorithm Comparison')
4 ax= fig.add_subplot(111)
5 plt.boxplot(results)
6 ax.set_xticklabels(names)
7 plt.show()


你可以看到盒型图在顶部被压扁,许多样品达到100%的准确度。

6

做预测

KNN算法是我们测试的最精确的模型。现在我们想了解验证集上模型的准确性。

这让我们对最佳模型的准确性进行独立的最终检查。保持一个验证集是有用的,以防万一你在训练过程中犯错,比如过拟合或数据外泄。两者都将导致过于乐观的结果。

我们可以直接在验证集上运行KNN模型,并将结果总结为最终准确度分数,混淆矩阵和分类报告。

1 # Make predictions on validation dataset
2 knn= KNeighborsClassifier()
3 knn.fit(X_train, Y_train)
4 predictions= knn.predict(X_validation)
5 print(accuracy_score(Y_validation, predictions))
6 print(confusion_matrix(Y_validation, predictions))
7 print(classification_report(Y_validation, predictions))


我们可以看到准确度是0.9即90%。混淆矩阵提供了三个错误的指示。最后,分类报告通过精确度,召回率,f1分数和支撑显示出优异的结果(授予验证数据集很小)提供每个类别的细目。

view source

01 0.9
02  
03 [[7  0  0]
04  [0 11  1]
05  [0  2  9]]
06  
07              precision    recall  f1-score   support
08  
09 Iris-setosa      1.00      1.00      1.00         7
10 Iris-versicolor  0.85      0.92      0.88        12
11 Iris-virginica   0.90      0.82      0.86        11
12  
13 avg/ total      0.90      0.90      0.90        30

完成上面的教程,只需要5到10分钟。

7

概要

在这篇文章中,你会逐步发现如何在Python中完成第一个机器学习项目。

你将发现,完成一个小型的端到端项目并将数据加载到预测中,是熟悉新平台的最佳途径。

热门推荐

原文标题:教程篇 | 一步步教你如何使用python进行第一个机器学习项目

文章出处:【微信号:machinelearningai,微信公众号:机器学习算法与人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

Python如何奠定AI领域的老大地位

在所有编程语言里,Python并不算萌新,从1991年发布第一个版本,至今已经快30年了。最近几年,....

的头像 机器人博览 发表于 05-20 11:43 283次阅读
Python如何奠定AI领域的老大地位

新时代的炼金术——机器学习

如果不深入了解构建和训练新算法所需的基本工具,研究人员就会像中世纪的炼金术士一样用道听途说的方法来研....

的头像 新智元 发表于 05-20 09:38 312次阅读
新时代的炼金术——机器学习

如何开始接触机器学习_机器学习入门方法盘点

机器学习入门方法 一说到机器学习,我被问得最多的问题是:给那些开始学习机器学习的人的最好的建议是什么....

的头像 电子发烧友网工程师 发表于 05-20 07:10 154次阅读
如何开始接触机器学习_机器学习入门方法盘点

英特尔FPGA为人工智能(AI)提供推理性能

新特性:在近日举行的 Microsoft Build 大会上,Microsoft推出了 基于 Pro....

发表于 05-20 00:10 60次阅读
英特尔FPGA为人工智能(AI)提供推理性能

12种用于数据分析的Pandas技巧可用来学习Python详细概述

如果你正开始学习Python,而且目标是数据分析,相信NumPy、SciPy、Pandas会是你进阶....

的头像 论智 发表于 05-19 11:40 239次阅读
12种用于数据分析的Pandas技巧可用来学习Python详细概述

Python学习爬虫掌握的库资料大全和框架的选择的分析

学Python,想必大家都是从爬虫开始的吧。毕竟网上类似的资源很丰富,开源项目也非常多。 Pyth....

的头像 马哥Linux运维 发表于 05-19 10:45 219次阅读
Python学习爬虫掌握的库资料大全和框架的选择的分析

细说机器学习的方法

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论....

发表于 05-18 23:44 61次阅读
细说机器学习的方法

中国科大在国际上首次实现量子机器学习算法

中国科学技术大学潘建伟教授及其同事陆朝阳、刘乃乐等组成的研究团队在国际上首次实现量子机器学习算法。日....

发表于 05-18 23:04 84次阅读
中国科大在国际上首次实现量子机器学习算法

IBM机器学习让可再生能源物尽其用

IBM的SMT系统使用天气型态在数周前收集海量数据点并预测有多少太阳能和风能可被利用。

发表于 05-18 22:52 178次阅读
IBM机器学习让可再生能源物尽其用

机器学习和机器发现区别在哪?

机器学习现在可谓是炙手可热。只要应用机器学习,就可以有效丰富数据和知识,促进有价值的任务自动化,包括....

发表于 05-18 22:32 72次阅读
机器学习和机器发现区别在哪?

自拍应用也需要机器学习?微软将二者融合

虽然WP平台的发展不尽如人意,但这没有阻挡微软为其它平台,如iOS开发应用的热情。最近,微软为iOS....

发表于 05-18 22:26 76次阅读
自拍应用也需要机器学习?微软将二者融合

微软机器学习的发展从测谎仪开始

37 岁的Marsman是个“重量级技术布道者”(principal developer evang....

发表于 05-18 22:19 75次阅读
微软机器学习的发展从测谎仪开始

谷歌将机器学习云平台推向大众

谷歌母公司Alphabet董事长Eric Schmidt今日宣布,谷歌将面向开发者开放云端机器学习平....

发表于 05-18 21:59 38次阅读
谷歌将机器学习云平台推向大众

机器人如何进行深度学习?还有哪些跨不过的坎?

不仅仅是“微软小冰”和围棋高手“阿尔法狗”,从互联网搜索到语言翻译,乃至识别患有自闭症风险的基因……....

发表于 05-18 21:49 49次阅读
机器人如何进行深度学习?还有哪些跨不过的坎?

吴恩达:机器学习和人工智能的未来

近期,吴恩达做客播客节目 Greymatter 探讨了自动化、智能化将会在各个领域如何发展,以及机器....

的头像 人工智能学家 发表于 05-18 17:23 816次阅读
吴恩达:机器学习和人工智能的未来

可以检测潜在心脏病的人工智能技术

人工智能在医疗领域扮演着越来越重要的角色,它的发展从诊断糖尿病和医学扫描,到未来甚至可能完全取代医生....

发表于 05-18 17:09 205次阅读
可以检测潜在心脏病的人工智能技术

概率计算能促进人工智能和机器学习吗?

在概率计算中,处理单元所消耗的能量降低,从而增加了某些操作可能出错的可能性。

的头像 新智元 发表于 05-18 16:33 752次阅读
概率计算能促进人工智能和机器学习吗?

AI,正在快速改变医疗大健康行业

AI的加入,让人看到了可喜的改变。根据TechEmergence的研究报告,AI可以将新药研发的成功....

的头像 你好张江 发表于 05-18 14:19 185次阅读
AI,正在快速改变医疗大健康行业

什么是机器学习?机器学习能解决什么问题?(案例分析)

随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都....

发表于 05-18 13:13 73次阅读
什么是机器学习?机器学习能解决什么问题?(案例分析)

机器学习算法用于检测盗刷信用卡,让我们的钱包和卡包会越来越安全

盗刷信用卡风险已经成为困扰全球银行信用卡部门的难题之一。仅以美国为例,美联储的支付调查报道显示,20....

发表于 05-18 09:39 80次阅读
机器学习算法用于检测盗刷信用卡,让我们的钱包和卡包会越来越安全

如何写一个简短(200行)的Python脚本

get_face_mask()的定义是为一张图像和一个标记矩阵生成一个遮罩,它画出了两个白色的凸多边....

的头像 悟空智能科技 发表于 05-18 09:37 91次阅读
如何写一个简短(200行)的Python脚本

这已经不是我所了解的Python了!

众所周知由于搭上AI的专车,Python已经火到不能再火的地步了,薪酬和需求也是高出其他语言一大截(....

的头像 人工智能头条 发表于 05-18 09:25 370次阅读
这已经不是我所了解的Python了!

更强大的“谷歌大脑”,谷歌扩充机器神经网络规模

“机器学习”的概念自上世纪50年代出来以来就备受科技界的关注,而近年来“深度学习”逐渐成为机器学习研....

发表于 05-18 08:57 36次阅读
更强大的“谷歌大脑”,谷歌扩充机器神经网络规模

机器学习中更多的数据比更好的算法好?没有合理的方法数据会成为噪音

在机器学习中,更多的数据总是比更好的算法好吗?对于Quora上的这个问题,Netflix公司工程总监....

发表于 05-18 08:56 68次阅读
机器学习中更多的数据比更好的算法好?没有合理的方法数据会成为噪音

关于机器学习的前世今生和怎么用机器学习的方法去解决问题

初看的话,会觉得机器学习和人工智能,数据挖掘讲的东西很像,实际他们之间的关系可以概括为: 机器学习....

发表于 05-18 08:37 69次阅读
关于机器学习的前世今生和怎么用机器学习的方法去解决问题

浅谈数据存储保护主要发展趋势

Commvault公司首席执行官Bob Hammer认为市场正在发生根本性转变。 IT的传统角色是搭....

发表于 05-18 03:30 121次阅读
浅谈数据存储保护主要发展趋势

在 MaxCompute UDF 中运行 Scipy

发表于 05-17 19:30 217次阅读
在 MaxCompute UDF 中运行 Scipy

涨知识!iPad还可以运行Python代码

同学们用Python处理数据科学问题。其中最让人头疼的,就是运行环境的安装。实事求是地讲,参加工作坊....

的头像 人间烟火123 发表于 05-17 18:03 216次阅读
涨知识!iPad还可以运行Python代码

当网络运营遇上机器学习,未来会是怎样?

爱立信将广泛的无线网络能力与最新的机器学习进展相结合,为客户在自动化道路上提供了关键的差异化因素。爱....

的头像 爱立信中国 发表于 05-17 16:24 518次阅读
当网络运营遇上机器学习,未来会是怎样?

专访Unity AI与机器学习副总裁Danny Lange

一直以来,Unity都在致力于降低机器学习的门槛,并将该技术应用到游戏开发中,以使开发流程变得更加简....

发表于 05-17 11:57 144次阅读
专访Unity AI与机器学习副总裁Danny Lange

如何用巧妙的方式借助TensorFlow帮助他们工作

还有一个好消息,是关于世界各地园艺专业人士的:Shaza Mehdi 和 Nile Ravenell....

的头像 TensorFlow 发表于 05-17 11:32 188次阅读
如何用巧妙的方式借助TensorFlow帮助他们工作

GitHub上最受欢迎的28款开源的机器学习项目,TensorFlow位列其中

现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计....

发表于 05-17 08:32 89次阅读
GitHub上最受欢迎的28款开源的机器学习项目,TensorFlow位列其中

机器学习之支持向量机SVM

掌握机器学习算法并不是什么神话。对于大多数机器学习初学者来说,回归算法是很多人接触到的第一类算法,它....

的头像 论智 发表于 05-16 17:01 434次阅读
机器学习之支持向量机SVM

利用以下八个开源AI技术,你的机器学习项目可提升到新水平

人工智能(AI)技术正迅速改变我们生活中几乎每一个领域。从我们如何交流到,用于交通的手段,我们似乎越....

发表于 05-16 14:14 72次阅读
利用以下八个开源AI技术,你的机器学习项目可提升到新水平

Tailor Brands利用机器学习实现自动化的设计,获1550万美元B轮融资

这种自动化的设计非常吸引眼球,也是Tailor Brands官网上着重强调的一大功能。在付费使用高品....

发表于 05-16 13:56 32次阅读
Tailor Brands利用机器学习实现自动化的设计,获1550万美元B轮融资

13种神经网络激活函数

ReLU(Rectified Linear Unit,修正线性单元)训练速度比tanh快6倍。当输入....

的头像 论智 发表于 05-16 11:18 238次阅读
13种神经网络激活函数

谷歌首次迎来大规模辞职潮

这个项目曝光后,谷歌发言人在一份声明中说,它向国防部提供用于机器学习应用的TensorFlow AP....

的头像 新智元 发表于 05-16 09:00 810次阅读
谷歌首次迎来大规模辞职潮

【产品功能】配置网卡从此与关机无缘,弹性网卡支持热插拔功能

发表于 05-15 22:49 187次阅读
【产品功能】配置网卡从此与关机无缘,弹性网卡支持热插拔功能

《机器学习训练秘籍》:书中选出了7条非常有用的建议

这是一个不断迭代的过程。循环得越快,进展也就越快。这就是为什么提前确定开发/测试集很重要,因为这样做....

的头像 人工智能头条 发表于 05-15 18:45 474次阅读
《机器学习训练秘籍》:书中选出了7条非常有用的建议

谷歌近日发明了一款能自动捕捉精彩时刻的相机

标签集建立好之后,我们就需要设计一个紧凑高效的模型,可以预测任意提供的照片。由于计算机视觉技术背后都....

的头像 论智 发表于 05-15 18:20 443次阅读
谷歌近日发明了一款能自动捕捉精彩时刻的相机

将从目标和问题的角度去讨论每种误差度量的有效性

对于前面的例子,我们将看到案例1和案例2得到的RMSE结果与R²是类似的。在这种情况下,校正R²要比....

的头像 将门创投 发表于 05-15 15:57 224次阅读
将从目标和问题的角度去讨论每种误差度量的有效性

python中的字典(dict)对象以及其使用方法

本文通过以英文的形式全面讲解了python中的字典(dict)对象以及其使用方法。

发表于 05-15 10:00 13次阅读
python中的字典(dict)对象以及其使用方法

KL散度在各领域不同的使用情况

近日,CMU的助理教授Simon DeDeo就在推特上表示:“用到KL散度的领域十分广泛,包括心理学....

的头像 论智 发表于 05-14 17:40 273次阅读
KL散度在各领域不同的使用情况

自学机器学习的误区和陷阱

Sklearn(scikit-learn: machine learning in Python-h....

的头像 人工智能头条 发表于 05-14 15:54 357次阅读
自学机器学习的误区和陷阱

AI的价值究竟何在?谁拥有最棒的AI芯片和硬件?

AI和机器学习即将成为社会生活中不可割裂的一环。既然说AI淘金狂潮来袭,那么我们不禁会问,谁最后能真....

的头像 全球技术地图 发表于 05-14 14:58 605次阅读
AI的价值究竟何在?谁拥有最棒的AI芯片和硬件?

机器学习算法与Python学习简单的编码规范

整体使用英文书写方式来使用空格,即仅在逗号、分号后面添加1个空格,其他任何符号如圆括号、方括号、花括....

的头像 马哥Linux运维 发表于 05-14 14:45 311次阅读
机器学习算法与Python学习简单的编码规范

代码行数最多的 Python 项目是什么 我猜你不知道

而这世界上有的是著名的开源项目,也有像 Github、Instagram 这样流量巨大的知名网站是基....

的头像 马哥Linux运维 发表于 05-14 11:19 122次阅读
代码行数最多的 Python 项目是什么  我猜你不知道

如何在嵌入式平台上玩转Python

它的主处理器为ARM CORTEX-M4系列的STM32F405,最高工作频率168MHz,利用意法....

的头像 21ic电子网 发表于 05-14 08:59 276次阅读
如何在嵌入式平台上玩转Python

Google I/O大会:机器人学习系统成主角

那么机器人学习系统是什么东西呢?首先这个得提到阿法狗(Alpha Go),AlphaGo的主要工作原....

发表于 05-14 08:20 188次阅读
Google I/O大会:机器人学习系统成主角

基于 Python 的深度学习库Keras入门知识

支持 Python 开发环境的平台同时也能支持 Keras。正式构建测试是在 Python V2.7....

的头像 C语言专家集中营 发表于 05-14 04:05 901次阅读
基于 Python 的深度学习库Keras入门知识

谷歌并不隐瞒其AI雄心,宣布实现AI大胆计划的下一步行动

新部门将研究如何改进机器学习基础设施和使科技投入实用中。研究人员也将与语言学家密切合作推动自然语言理....

发表于 05-13 10:17 269次阅读
谷歌并不隐瞒其AI雄心,宣布实现AI大胆计划的下一步行动

Python这么火,那有啥优势呢?

发表于 05-09 13:30 243次阅读
Python这么火,那有啥优势呢?

python徒手实现识别手写数字

发表于 05-08 17:21 232次阅读
python徒手实现识别手写数字

人脸识别经典算法实现python

发表于 05-04 17:25 802次阅读
人脸识别经典算法实现python

使用Python创建简单的FTP服务器

发表于 05-04 16:17 267次阅读
使用Python创建简单的FTP服务器

Tensorflow快餐教程(1) - 30行代码搞定手写识别

发表于 04-28 16:08 651次阅读
Tensorflow快餐教程(1) - 30行代码搞定手写识别

python和别的语言比所具备的优势

发表于 04-13 14:57 410次阅读
python和别的语言比所具备的优势

Python常用自增运算写法

发表于 04-09 17:45 326次阅读
Python常用自增运算写法

关于机器学习模块KNN算法错误91的问题?

发表于 04-02 15:08 221次阅读
关于机器学习模块KNN算法错误91的问题?