电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示
电子发烧友网>电子资料下载>电子资料>PyTorch教程5.7之在Kaggle上预测房价

PyTorch教程5.7之在Kaggle上预测房价

2023-06-05 | pdf | 0.49 MB | 次下载 | 免费

资料介绍

现在我们已经介绍了一些用于构建和训练深度网络并使用包括权重衰减和丢失在内的技术对其进行正则化的基本工具,我们准备通过参加 Kaggle 竞赛将所有这些知识付诸实践。房价预测竞赛是一个很好的起点。数据相当通用,没有表现出可能需要专门模型(如音频视频可能)的奇异结构。该数据集由 De Cock ( 2011 )收集,涵盖 2006 年至 2010 年爱荷华州埃姆斯的房价。 它比Harrison 和 Rubinfeld (1978)著名的波士顿住房数据集大得多,拥有更多的例子和更多的特征。

在本节中,我们将带您了解数据预处理、模型设计和超参数选择的详细信息我们希望通过实践方法,您将获得一些直觉,这些直觉将指导您作为数据科学家的职业生涯。

%matplotlib inline
import pandas as pd
import torch
from torch import nn
from d2l import torch as d2l
%matplotlib inline
import pandas as pd
from mxnet import autograd, gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()
%matplotlib inline
import jax
import numpy as np
import pandas as pd
from jax import numpy as jnp
from d2l import jax as d2l
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
%matplotlib inline
import pandas as pd
import tensorflow as tf
from d2l import tensorflow as d2l

5.7.1. 下载数据

在整本书中,我们将在各种下载的数据集上训练和测试模型。在这里,我们实现了两个实用函数来下载文件和提取 zip 或 tar 文件。同样,我们将它们的实现推迟到 第 23.7 节

def download(url, folder, sha1_hash=None):
  """Download a file to folder and return the local filepath."""

def extract(filename, folder):
  """Extract a zip/tar file into folder."""

5.7.2. 格格

Kaggle是一个举办机器学习竞赛的流行平台。每场比赛都以数据集为中心,许多比赛由利益相关者赞助,他们为获胜的解决方案提供奖励。该平台帮助用户通过论坛和共享代码进行交互,促进协作和竞争。虽然排行榜追逐经常失控,研究人员短视地关注预处理步骤而不是提出基本问题,但平台的客观性也具有巨大价值,该平台有助于竞争方法之间的直接定量比较以及代码共享,以便每个人都可以了解哪些有效,哪些无效。如果你想参加 Kaggle 比赛,你首先需要注册一个账号(见图 5.7.1)。

https://file.elecfans.com/web2/M00/A8/BC/poYBAGR3IKiAAYRAAAKeYMfXAiY589.png

图 5.7.1 Kaggle 网站。

在房价预测比赛页面,如图 5.7.2所示,可以找到数据集(在“数据”选项卡下),提交预测,就可以看到你的排名,网址在这里:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

https://file.elecfans.com/web2/M00/A9/37/pYYBAGR3IK2AIz08AAJE64c9ZKo210.png

图 5.7.2房价预测比赛页面。

5.7.3. 访问和读取数据集

请注意,比赛数据分为训练集和测试集。每条记录包括房屋的属性值和街道类型、建造年份、屋顶类型、地下室状况等属性。特征由各种数据类型组成。例如,建造年份用整数表示,屋顶类型用离散的分类分配表示,其他特征用浮点数表示。这就是现实使事情复杂化的地方:例如,一些数据完全缺失,缺失值简单地标记为“na”。每个房子的价格仅包含在训练集中(毕竟这是一场比赛)。我们希望对训练集进行分区以创建验证集,但我们只能在将预测上传到 Kaggle 后才能在官方测试集上评估我们的模型。图 5.7.2有下载数据的链接。

首先,我们将pandas使用我们在第 2.2 节中介绍的方法读入和处理数据。为了方便起见,我们可以下载并缓存 Kaggle 住房数据集。如果与此数据集对应的文件已存在于缓存目录中并且其 SHA-1 匹配sha1_hash,我们的代码将使用缓存文件以避免因冗余下载而阻塞您的互联网。

class KaggleHouse(d2l.DataModule):
  def __init__(self, batch_size, train=None, val=None):
    super().__init__()
    self.save_hyperparameters()
    if self.train is None:
      self.raw_train = pd.read_csv(d2l.download(
        d2l.DATA_URL + 'kaggle_house_pred_train.csv', self.root,
        sha1_hash='585e9cc93e70b39160e7921475f9bcd7d31219ce'))
      self.raw_val = pd.read_csv(d2l.download(
        d2l.DATA_URL + 'kaggle_house_pred_test.csv', self.root,
        sha1_hash='fa19780a7b011d9b009e8bff8e99922a8ee2eb90'))

训练数据集包含 1460 个示例、80 个特征和 1 个标签,而验证数据包含 1459 个示例和 80 个特征。

data = KaggleHouse(batch_size=64)
print(data.raw_train.shape)
print(data.raw_val.shape)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
data = KaggleHouse(batch_size=64)
print(data.raw_train.shape)
print(data.raw_val.shape)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
data = KaggleHouse(batch_size=64)
print(data.raw_train.shape)
print(data.raw_val.shape)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
data = KaggleHouse(batch_size=64)
print(data.raw_train.shape)
print(data.raw_val.shape)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)

5.7.4. 数据预处理

我们来看看前四个和最后两个特征以及前四个示例中的标签 (SalePrice)。

print(data.raw_train.iloc[:4, [0, 1, 2, 3, -3, -2, -1]])
  Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice
0  1     60    RL     65.0    WD    Normal   208500
1  2     20    RL     80.0    WD    Normal   181500
2  3     60    RL     68.0    WD    Normal   223500
3  4     70    RL     60.0    WD    Abnorml   140000
print(data.raw_train.iloc[:4, [0, 1, 2, 3, -3, -2, -1]])
  Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice
0  1     60    RL     65.0    WD    Normal   208500
1  2     20    RL     80.0    WD    Normal   181500
2  3     60    RL     68.0    WD    Normal   223500
3  4     70    RL     60.0    WD    Abnorml   140000
print(data.raw_train.iloc[:4, [0, 1, 2, 3, -3, -2, -1]])
  Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice
0  1     60    RL     65.0    WD    Normal   208500
1  2     20    RL     80.0    WD    Normal   181500
2  3     60    RL     68.0    WD    Normal   223500
3  4     70    RL     60.0    WD    Abnorml   140000
print(data.raw_train.iloc[:4, [0, 1, 2, 3, -3, -2, -1]])

下载该资料的人也在下载 下载该资料的人还在阅读
更多 >

评论

查看更多

下载排行

本周

  1. 1山景DSP芯片AP8248A2数据手册
  2. 1.06 MB  |  532次下载  |  免费
  3. 2RK3399完整板原理图(支持平板,盒子VR)
  4. 3.28 MB  |  339次下载  |  免费
  5. 3TC358743XBG评估板参考手册
  6. 1.36 MB  |  330次下载  |  免费
  7. 4DFM软件使用教程
  8. 0.84 MB  |  295次下载  |  免费
  9. 5元宇宙深度解析—未来的未来-风口还是泡沫
  10. 6.40 MB  |  227次下载  |  免费
  11. 6迪文DGUS开发指南
  12. 31.67 MB  |  194次下载  |  免费
  13. 7元宇宙底层硬件系列报告
  14. 13.42 MB  |  182次下载  |  免费
  15. 8FP5207XR-G1中文应用手册
  16. 1.09 MB  |  178次下载  |  免费

本月

  1. 1OrCAD10.5下载OrCAD10.5中文版软件
  2. 0.00 MB  |  234315次下载  |  免费
  3. 2555集成电路应用800例(新编版)
  4. 0.00 MB  |  33566次下载  |  免费
  5. 3接口电路图大全
  6. 未知  |  30323次下载  |  免费
  7. 4开关电源设计实例指南
  8. 未知  |  21549次下载  |  免费
  9. 5电气工程师手册免费下载(新编第二版pdf电子书)
  10. 0.00 MB  |  15349次下载  |  免费
  11. 6数字电路基础pdf(下载)
  12. 未知  |  13750次下载  |  免费
  13. 7电子制作实例集锦 下载
  14. 未知  |  8113次下载  |  免费
  15. 8《LED驱动电路设计》 温德尔著
  16. 0.00 MB  |  6656次下载  |  免费

总榜

  1. 1matlab软件下载入口
  2. 未知  |  935054次下载  |  免费
  3. 2protel99se软件下载(可英文版转中文版)
  4. 78.1 MB  |  537798次下载  |  免费
  5. 3MATLAB 7.1 下载 (含软件介绍)
  6. 未知  |  420027次下载  |  免费
  7. 4OrCAD10.5下载OrCAD10.5中文版软件
  8. 0.00 MB  |  234315次下载  |  免费
  9. 5Altium DXP2002下载入口
  10. 未知  |  233046次下载  |  免费
  11. 6电路仿真软件multisim 10.0免费下载
  12. 340992  |  191187次下载  |  免费
  13. 7十天学会AVR单片机与C语言视频教程 下载
  14. 158M  |  183279次下载  |  免费
  15. 8proe5.0野火版下载(中文版免费下载)
  16. 未知  |  138040次下载  |  免费