使用Python可视化数据,机器人开发编程-电子发烧友网

机器学习开发，与Mail.Ru Search数据分析负责人Egor Polusmak和Mail.Ru Group数据科学家Yury Kashnitsky一起探索如何使用Python可视化数据。

在机器学习领域中，可视化并不仅仅用来制作漂亮的报表。项目的各个阶段都大量使用可视化技术。

在开始一项新任务时，通过可视化手段探索数据往往是任务的第一步。我们通过图表汇总数据，放弃无关紧要的细节。相比直接阅读许多行原始数据，可视化能更好地帮助人类把握数据的要点。令人惊叹的是，仅仅通过可视化工具创建一些看上去再简单不过的图表，就能获得大量洞见。

接着，在分析模型表现和模型报告的结果时，我们也常常使用可视化。有时候，为了理解复杂的模型，我们需要将高维空间映射为视觉上更直观的二维或三维图形。

总而言之，可视化是一个相对快捷的从数据中获取新知的手段。因此，学习这一极为重要的技术，并将其纳入你的日常机器学习工具箱，是至关重要的。

本文将使用pandas、matplotlib和seaborn等流行的库，带你上手可视化。

概览

数据集

单变量可视化数量和类型分布

多变量可视化变量间的相互作用

全数据集一窥高维空间

作业二

相关矩阵

让我们看下数据集中的数值变量的相关性。这一信息很重要，因为有一些机器学习算法（比如，线性回归和逻辑回归）不能很好地处理高度相关的输入变量。

首先，我们使用DataFrame的corr()方法计算出每对特征间的相关性。接着，我们将所得的相关矩阵（correlation matrix）传给seaborn的heatmap()方法，该方法根据提供的数值，渲染出一个基于色彩编码的矩阵：

# 丢弃非数值变量

numerical = list(set(df.columns) -

set(['State', 'International plan',

'Voice mail plan', 'Area code', 'Churn',

'Customer service calls']))

# 计算和绘图

corr_matrix = df[numerical].corr()

sns.heatmap(corr_matrix);

从上图我们可以看到，Total day charge（日话费总额）直接基于电话的分钟数计算得到（Total day minutes），这样的变量有4个。这4个变量称为因变量（dependent variable），可以直接去除，因为它们并不贡献任何额外信息。让我们去掉它们：

numerical = list(set(numerical) -

set(['Total day charge', 'Total eve charge',

'Total night charge', 'Total intl charge']))

散点图

散点图（scatter plot）将两个数值变量的值显示为二位空间中的笛卡尔坐标（Cartesian coordinate）。还有三维的散点图。

让我们试下matplotlib库的scatter()方法：

plt.scatter(df['Total day minutes'], df['Total night minutes']);

我们得到了两个正态分布变量的散点图，这张图没什么意思。看起来这两个变量并不相关，因为类似椭圆的形状和轴是对齐的。

seaborn库创建的散点图有一个略微奇特的选项：

sns.jointplot(x='Total day minutes', y='Total night minutes',

data=df, kind='scatter');

jointplot()函数绘制了两张直方图，某些情形下它们可能会有用。这一函数还可以让我们绘制平滑过的joint plot：

sns.jointplot('Total day minutes', 'Total night minutes',

data=df, kind="kde", color="g");

这个基本上是我们之前讨论过的核密度图的双变量版本。

散点图矩阵

在某些情形下，我们可能想要绘制如下所示的散点图矩阵（scatterplot matrix）。它的对角线包含变量的分布，而每对变量的散点图填充了矩阵的其余部分。

# 使用SVG格式可能导致pairplot变得非常慢

%config InlineBackend.figure_format = 'png'

sns.pairplot(df[numerical]);

有时候，这样的可视化可能帮我们从数据中得出一些结论。

3.2 数量——类别

在这一小节中，让我们的图形更有趣一点。我们将尝试从数值和类别特征的相互作用中得到离网预测的新洞见。

更具体地，让我看看输入变量和目标变量离网的关系。

先前我们了解了散点图。散点图中的数据点可以通过色彩或尺寸进行编码，以便在同一张图像中包括第三个类别变量的值。我们可以通过之前的scatter()函数达成这一点，不过，这次让我们换换花样，用lmplot()函数的hue参数来指定感兴趣的类别特征：

sns.lmplot('Total day minutes', 'Total night minutes', data=df,

hue='Churn', fit_reg=False);

看起来占少数的不忠实客户偏向右上角；也就是倾向于在白天和夜间打更多电话的客户。但这不是非常明显，我们也不会基于这一图形下任何确定的结论。

现在，让我们创建箱形图，以可视化两个互斥分组中的数值变量分布的统计数据：忠实客户（Churn=False）和离网客户（Churn=True）。

# 有时我们可以将有序变量作为数值变量分析

numerical.append('Customer service calls')

fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(10, 7))

for idx, feat in enumerate(numerical):

ax = axes[int(idx / 4), idx % 4]

sns.boxplot(x='Churn', y=feat, data=df, ax=ax)

ax.set_xlabel('')

ax.set_ylabel(feat)

fig.tight_layout();

从这一图表中，我们可以看到，两组之间分歧最大的分布是这三个变量：Total day minutes（日通话分钟数）、Customer service calls（客服呼叫数）、Number vmail messages（语音邮件数）。在后续的课程中，我们将学习如何使用随机森林（Random Forest）或梯度提升（Gradient Boosting）来判定特征对分类的重要性；那时我们将看到，前两个特征对于离网预测而言确实非常重要。

让我们分别看下忠实客户和不忠实客户的日通话分钟数。我们将创建箱形图和提琴形图。

_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.boxplot(x='Churn', y='Total day minutes',

data=df, ax=axes[0]);

sns.violinplot(x='Churn', y='Total day minutes',

data=df, ax=axes[1]);

在这一情形下，提琴形图并没有提供关于数据的额外信息，因为箱形图已经告诉了我们一切：不忠实客户倾向于打更多的电话。

一个有趣的观察：平均而言，终止他们的协议的客户是通讯服务更活跃的用户。也许他们对话费不满意，所以预防离网的一个可能措施是降低通话费率。公司需要进行额外的经济分析，以查明这样的措施是否有利。

当我们想要一次分析两个类别维度下的数量变量时，可以用seaborn库的factorplot()函数。例如，在同一图形中可视化Total day minutes（日通话分钟数）和两个类别变量的相互作用：

sns.factorplot(x='Churn', y='Total day minutes',

col='Customer service calls',

data=df[df['Customer service calls'] < 8],

kind="box", col_wrap=4, size=3, aspect=.8);

从上图我们可以总结出，从4次呼叫开始，Total day minutes（日通话分钟数）可能不再是客户离网的主要因素。也许，除了我们之前猜测的话费，有些客户因为其他问题对服务不满意，或许这导致了日通话分钟数较少。

3.3 类别——类别

正如我们之前提到的，变量Customer service calls（客服呼叫数）的唯一值极少，因此，既可以看成数值变量，也可以看成有序类别变量。我们已经通过计数图（countc plot）查看过它的分布了。现在我们感兴趣的是这一有序特征和目标变量Churn（离网）之间的关系。

让我们再一次使用计数图看下客服呼叫数的分布。这次，我们同时传入hue=Churn参数，以便在图形中加入类别维度：

sns.countplot(x='Customer service calls', hue='Churn', data=df);

观察：呼叫客服达到4次以上后，离网率显著增加了。

现在让我们看下Churn（离网）和二元特征International plan（国际套餐）、Voice mail plan（语音邮件套餐）的关系。

_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x='International plan', hue='Churn',

data=df, ax=axes[0]);

sns.countplot(x='Voice mail plan', hue='Churn',

data=df, ax=axes[1]);

观察：开通国际套餐后，离网率会高很多；使用国际套餐是一个强烈的特征。我们在语音邮件套餐上没有观察到相同的效应。

列联表

除了使用图形进行类别分析之外，还可以使用统计学的传统工具：列联表（contingency table），又称为交叉制表（cross tabulation），使用表格形式表示多个类别变量的频率分布。特别地，它让我们可以通过查看一列或一行来得知某个变量在另一变量的作用下的分布。

让我们通过交叉制表看看Churn（离网）和类别变量State（州）的关系：

pd.crosstab(df['State'], df['Churn']).T

State（州）的不同值很多：51. 我们看到每个周只有少量数据点——每个州只有3到17个客户抛弃了运营商。让我们暂时忽略这一点，计算每个州的离网率，由高到低排列：

df.groupby(['State'])['Churn'].

agg([np.mean]).

sort_values(by='mean', ascending=False).T

乍看起来，新泽西和加利福尼亚的离网率超过了25%，夏威夷和阿拉斯加的离网率则不到6%. 然而，这些结论是基于极少的样本得出的，我们的观察可能仅仅是这一特定数据集的性质。我们可以通过Matthews和Cramer相关性假说确认这一点，不过这个超出了这篇文章的范围。

4. 全数据集

4.1 幼稚方法

上面我们查看了数据集的不同刻面（facet），猜测感兴趣的特征，每次选择其中的一小部分进行可视化。我们一次仅仅处理两到三个变量，能比较容易地观察到数据的结构和关系。但是，如果我们想一下子显示所有特征呢？如何确保最终的可视化仍然是可解释的？

我们可以为整个数据集使用hist()或者pairplot()方法，同时查看所有的特征。不过，当特征数目足够多的时候，这样的可视化分析很快就变得缓慢和低效。另外，我们其实仍然可以成对地分析变量，而不用一下子分析所有变量。

4.2 降维

大多数现实世界的数据集有很多特征，有时有上万个特征。每一个特征都可以被看成数据点空间的一维。因此，我们经常需要处理高维数据集，可视化整个高维数据集相当难。

为了从整体上查看一个数据集，我们需要在不损失很多数据信息的前提下，降低用于可视化的维度。这一任务称为降维（dimensionality reduction）。降维是一个无监督学习（unsupervised learning）问题，因为我们需要在不借助任何监督输入的前提下，从数据自身得到新的低维特征。

主成分分析（Principal Component Analysis, PCA）是一个著名的降维方法，我们会在之后的课程中讨论它。主成分分析有一个限制，它是线性（linear）算法，因而对数据有某些特定的限制。

有许多非线性方法，统称流形学习（Manifold Learning）。最著名的流形学习方法之一是t-SNE。

4.3 t-SNE

让我们为离网数据创建一个t-SNE表示。

这一方法的名字看起来很复杂，有些吓人：t分布随机近邻嵌入（t-distributed Stohastic Neighbor Embedding）。它的数学也很令人印象深刻（我们不会在这里深究数学，勇敢的读者可以阅读Laurens van der Maaten和Geoffrey Hinton在JMLR上发表的原论文）。它的基本思路很简单：为高维特征空间在二维平面（或三维超平面，不过基本上总是使用二维空间）上寻找一个投影，使得在原本的n维空间中相距很远的数据点在屏幕上同样相距较远。而原本相近的点在平面上仍然相近。

本质上，近邻嵌入寻找保留了样本的邻居关系的新的维度较低的数据表示。

现在让我们做些练习。首先，加载类：

from sklearn.manifold import TSNE

from sklearn.preprocessing importStandardScaler

我们去除State（州）和离网（Churn）变量，然后用pandas.Series.map()方法将二元特征的“Yes”/“No”转换成数值：

X = df.drop(['Churn', 'State'], axis=1)

X['International plan'] = X['International plan'].

map({'Yes': 1, 'No': 0})

X['Voice mail plan'] = X['Voice mail plan'].

map({'Yes': 1, 'No': 0})

我们同样需要归一化数据。我们从每个变量中减去均值，然后除以标准差。这些都可以使用StandardScaler来完成。

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

现在可以构建t-SNE表示了：

tsne = TSNE(random_state=17)

tsne_repr = tsne.fit_transform(X_scaled)

然后可视化它的图形：

plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1]);

让我们根据离网情况给t-SNE表示加上色彩（绿色表示忠实用户，红色表示不忠实用户）。

plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1],

c=df['Churn'].map({False: 'green', True: 'red'}));

我们可以看到，离网的客户集中在低维特征空间的一小部分区域。

为了更好地理解这一图像，我们可以使用剩下的两个二元特征给图像着色：International plan（国际套餐）和Voice mail plan（语音邮件套餐）。绿色代表相应的二元特征是正值。

_, axes = plt.subplots(1, 2, sharey=True, figsize=(12, 5))

for i, name in enumerate(['International plan', 'Voice mail plan']):

axes[i].scatter(tsne_repr[:, 0], tsne_repr[:, 1],

c=df[name].map({'Yes': 'green', 'No': 'red'}))

axes[i].set_title(name)

现在很清楚了，许多退订的不满意客户集中在西南聚类（表示开通了国际套餐但没有开通语音邮件套餐）。

最后，让我们了解下t-SNE的缺陷：

高计算复杂度。scikit-learn的实现在真实任务中往往不太管用。如果你有大量样本，你应该转而使用Multicore-TSNE（多核）。

随机数种子的不同会导致图形大不相同，这给解释带来了困难。请参考文末相关资源给出的t-SNE教程。通常而言，你不应该基于这些图像做出任何深远的结论，因为它可能和单纯的猜测差不多。当然，t-SNE图像中的某些发现可能会启发一个想法，这个想法可以通过更全面深入的研究得到确认，但这并不经常发生。

偶尔，t-SNE可以让你从数据中得到非常好的直觉。下面的论文展示了一个这样的例子：Visualizing MNIST（可视化MNIST）。

有时t-SNE真的能够帮助你更好地理解数据，有时t-SNE能够帮助你画出圣诞树玩具 :-)

用t-SNE）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
213

文章
30580

浏览量
219572
Google

Google

+关注

关注
5

文章
1801

浏览量
60265
数据集

数据集

+关注

关注
4

文章
1230

浏览量
26046
开发编程

开发编程

+关注

关注
0

文章
4

浏览量
5836

原文标题：机器学习开放课程（二）：使用Python可视化数据

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

搜索历史

使用Python可视化数据,机器人开发编程

评论