0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PyTorch入门须知PyTorch教程-2.2. 数据预处理

jf_bzMfoexS 来源:PyTorch 作者:PyTorch 2023-06-05 15:15 次阅读

到目前为止,我们一直在处理以现成张量形式到达的合成数据。然而,要在野外应用深度学习,我们必须提取以任意格式存储的杂乱数据,并对其进行预处理以满足我们的需要。幸运的是,pandas 库可以完成大部分繁重的工作。本节虽然不能替代适当的pandas 教程,但将为您提供一些最常见例程的速成课程。

2.2.1. 读取数据集

逗号分隔值 (CSV) 文件普遍用于存储表格(类似电子表格)数据。此处,每一行对应一个记录并由多个(逗号分隔)字段组成,例如,“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。为了演示如何加载 CSV 文件pandas,我们在下面创建了一个 CSV 文件 ../data/house_tiny.csv。此文件表示房屋数据集,其中每一行对应一个不同的房屋,列对应房间数 ( NumRooms)、屋顶类型 ( RoofType) 和价格 ( Price)。

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
  f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

现在让我们导入pandas并加载数据集read_csv。

import pandas as pd

data = pd.read_csv(data_file)
print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd

data = pd.read_csv(data_file)
print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd

data = pd.read_csv(data_file)
print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd

data = pd.read_csv(data_file)
print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

2.2.2. 数据准备

在监督学习中,我们训练模型在给定一组输入值的情况下预测指定的目标值。我们处理数据集的第一步是分离出对应于输入值和目标值的列。我们可以按名称或通过基于整数位置的索引 ( ) 选择列。iloc

您可能已经注意到,pandas将所有 CSV 条目替换NA为一个特殊的NaN(不是数字)值。这也可能在条目为空时发生,例如“3,,,270000”。这些被称为缺失值,它们是数据科学的“臭虫”,是您在整个职业生涯中都会遇到的持续威胁。根据上下文,缺失值可以通过 插补或删除来处理。插补用缺失值的估计值替换缺失值,而删除只是丢弃那些包含缺失值的行或列。

以下是一些常见的插补启发法。对于分类输入字段,我们可以将其视为NaN一个类别。由于该RoofType 列采用值Slate和NaN,pandas可以将此列转换为两列RoofType_Slate和RoofType_nan。屋顶类型为的行将分别将和 Slate的值设置为 1 和 0。相反的情况适用于具有缺失值的行。RoofType_SlateRoofType_nanRoofType

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

对于缺失的数值,一种常见的启发式方法是用 NaN相应列的平均值替换条目。

inputs = inputs.fillna(inputs.mean())
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean())
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean())
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean())
print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

2.2.3. 转换为张量格式

inputs现在 和中的所有条目targets都是数字,我们可以将它们加载到张量中(回忆一下2.1 节)。

import torch

X, y = torch.tensor(inputs.values), torch.tensor(targets.values)
X, y

(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

from mxnet import np

X, y = np.array(inputs.values), np.array(targets.values)
X, y

(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))

from jax import numpy as jnp

X, y = jnp.array(inputs.values), jnp.array(targets.values)
X, y

No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

(Array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float32),
 Array([127500, 106000, 178100, 140000], dtype=int32))

import tensorflow as tf

X, y = tf.constant(inputs.values), tf.constant(targets.values)
X, y

(,
 )

2.2.4. 讨论

您现在知道如何对数据列进行分区、估算缺失变量以及将pandas数据加载到张量中。在第 5.7 节中,您将掌握更多数据处理技能。虽然这个速成课程让事情变得简单,但数据处理可能会变得棘手。例如,我们的数据集可能分布在从关系数据库中提取的多个文件中,而不是到达单个 CSV 文件。例如,在电子商务应用程序中,客户地址可能存在于一个表中,而购买数据则存在于另一个表中。此外,从业者还面临着分类和数字以外的无数数据类型。其他数据类型包括文本字符串、图像、音频数据和点云。通常,需要先进的工具和高效的算法来防止数据处理成为机器学习管道中的最大瓶颈。当我们涉及计算机视觉和自然语言处理时,就会出现这些问题。最后,我们必须关注数据质量。现实世界的数据集经常受到异常值、传感器错误测量和记录错误的困扰,在将数据输入任何模型之前必须解决这些问题。数据可视化工具,例如 seaborn、 Bokeh或 matplotlib可以帮助您手动检查数据并形成关于您可能需要解决的问题的直觉。

2.2.5. 练习

尝试从UCI 机器学习存储库加载数据集,例如 Abalone并检查它们的属性。其中有多少缺失值?变量的哪一部分是数字的、分类的或文本的?

尝试按名称而不是按列号索引和选择数据列。有关索引的 Pandas 文档 包含有关如何执行此操作的更多详细信息

您认为您可以通过这种方式加载多大的数据集?可能有什么限制?提示:考虑读取数据的时间、表示、处理和内存占用。在笔记本电脑上试试这个。如果您在服务器上试用它会发生什么变化?

您将如何处理具有大量类别的数据?如果类别标签都是唯一的怎么办?你应该包括后者吗?

你能想到什么 pandas 的替代品?如何从文件加载 NumPy 张量?查看Pillow,Python 图像库。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87600
  • python
    +关注

    关注

    51

    文章

    4675

    浏览量

    83467
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119908
  • pytorch
    +关注

    关注

    2

    文章

    761

    浏览量

    12831
收藏 人收藏

    评论

    相关推荐

    Pytorch模型训练实用PDF教程【中文】

    ,结构与机器学习三大部分一致:第一章,介绍数据的划分,预处理数据增强;第二章,介绍模型的定义,权值初始化,模型 Finetune;第三章,介绍各种损失函数及优化器;第四章,介绍可视化工具,用于监控
    发表于 12-21 09:18

    Pytorch入门之的基本操作

    Pytorch入门之基本操作
    发表于 05-22 17:15

    PyTorch如何入门

    PyTorch 入门实战(一)——Tensor
    发表于 06-01 09:58

    Pytorch AI语音助手

    想做一个Pytorch AI语音助手,有没有好的思路呀?
    发表于 03-06 13:00

    如何往星光2板子里装pytorch

    如题,想先gpu版本的pytorch只安装cpu版本的pytorch,pytorch官网提供了基于conda和pip两种安装方式。因为咱是risc架构没对应的conda,而使用pip安装提示也没有
    发表于 09-12 06:30

    Pytorch入门教程与范例

    棒的深度学习框架。 对于系统学习 pytorch,官方提供了非常好的入门教程 ,同时还提供了面向深度学习的示例,同时热心网友分享了更简洁的示例。 1. overview 不同于 theano
    发表于 11-15 17:50 4978次阅读
    <b class='flag-5'>Pytorch</b><b class='flag-5'>入门</b>教程与范例

    基于PyTorch的深度学习入门教程之PyTorch简单知识

    计算 Part3:使用PyTorch构建一个神经网络 Part4:训练一个神经网络分类器 Part5:数据并行化 本文是关于Part1的内容。 Part1:PyTorch简单知识 PyTorc
    的头像 发表于 02-16 15:20 2004次阅读

    基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

    计算 Part3:使用PyTorch构建一个神经网络 Part4:训练一个神经网络分类器 Part5:数据并行化 本文是关于Part2的内容。 Part2:PyTorch的自动梯度计算 autograd
    的头像 发表于 02-16 15:26 1751次阅读

    基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

    PyTorch的自动梯度计算 Part3:使用PyTorch构建一个神经网络 Part4:训练一个神经网络分类器 Part5:数据并行化 本文是关于Part3的内容。 Part3:使用PyT
    的头像 发表于 02-15 09:40 1881次阅读

    利用Python和PyTorch处理面向对象的数据集(1)

    在本文中,我们将提供一种高效方法,用于完成数据的交互、组织以及最终变换(预处理)。随后,我们将讲解如何在训练过程中正确地把数据输入给模型。PyTorch 框架将帮助我们实现此目标,我们
    的头像 发表于 08-02 08:03 511次阅读

    那些年在pytorch上踩过的坑

    今天又发现了一个pytorch的小坑,给大家分享一下。手上两份同一模型的代码,一份用tensorflow写的,另一份是我拿pytorch写的,模型架构一模一样,预处理数据的逻辑也一模一
    的头像 发表于 02-22 14:18 823次阅读
    那些年在<b class='flag-5'>pytorch</b>上踩过的坑

    PyTorch教程-2.2.数据预处理

    到目前为止,我们一直在处理以现成张量形式到达的合成数据。然而,要在野外应用深度学习,我们必须提取以任意格式存储的杂乱数据,并对其进行预处理以满足我们的需要。幸运的是,pandas 库可
    的头像 发表于 06-02 09:34 383次阅读

    PyTorch教程之数据预处理

    电子发烧友网站提供《PyTorch教程之数据预处理.pdf》资料免费下载
    发表于 06-02 14:11 0次下载
    <b class='flag-5'>PyTorch</b>教程之<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>

    PyTorch教程-2.2. 数据预处理

    2.2. 数据预处理¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:37 255次阅读

    深度学习框架pytorch入门与实践

    深度学习框架pytorch入门与实践 深度学习是机器学习中的一个分支,它使用多层神经网络对大量数据进行学习,以实现人工智能的目标。在实现深度学习的过程中,选择一个适用的开发框架是非常关键
    的头像 发表于 08-17 16:03 1197次阅读