0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PyTorch教程-14.2. 微调

jf_pJlTbmA9 来源:PyTorch 作者:PyTorch 2023-06-05 15:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在前面的章节中,我们讨论了如何在只有 60000 张图像的 Fashion-MNIST 训练数据集上训练模型。我们还描述了 ImageNet,这是学术界使用最广泛的大规模图像数据集,它有超过 1000 万张图像和 1000 个对象。然而,我们通常遇到的数据集的大小介于这两个数据集之间。

假设我们要从图片中识别出不同类型的椅子,然后向用户推荐购买链接。一种可能的方法是首先识别 100 把普通椅子,为每把椅子拍摄 1000 张不同角度的图像,然后在收集的图像数据集上训练分类模型。虽然这个椅子数据集可能比 Fashion-MNIST 数据集大,但示例数量仍然不到 ImageNet 中的十分之一。这可能会导致适用于 ImageNet 的复杂模型在此椅子数据集上过度拟合。此外,由于训练示例数量有限,训练模型的准确性可能无法满足实际要求。

为了解决上述问题,一个显而易见的解决方案是收集更多的数据。然而,收集和标记数据可能会花费大量时间和金钱。例如,为了收集 ImageNet 数据集,研究人员花费了数百万美元的研究经费。虽然目前的数据采集成本已经大幅降低,但这一成本仍然不容忽视。

另一种解决方案是应用迁移学习,将从源数据集中学到的知识迁移到目标数据集中。例如,尽管 ImageNet 数据集中的大部分图像与椅子无关,但在此数据集上训练的模型可能会提取出更一般的图像特征,这有助于识别边缘、纹理、形状和物体组成。这些相似的特征也可能对识别椅子有效。

14.2.1。脚步

在本节中,我们将介绍迁移学习中的一种常用技术:微调。如图 14.2.1所示,微调包括以下四个步骤:

在源数据集(例如,ImageNet 数据集)上预训练神经网络模型,即源模型。

创建一个新的神经网络模型,即目标模型。这将复制源模型上除输出层之外的所有模型设计及其参数。我们假设这些模型参数包含从源数据集中学到的知识,并且这些知识也适用于目标数据集。我们还假设源模型的输出层与源数据集的标签密切相关;因此它不在目标模型中使用。

向目标模型添加一个输出层,其输出数量为目标数据集中的类别数量。然后随机初始化该层的模型参数。

在目标数据集(例如椅子数据集)上训练目标模型。输出层将从头开始训练,而所有其他层的参数将根据源模型的参数进行微调。

pYYBAGR9O0iAB3lVAAL7dtPCjdU591.svg

图 14.2.1微调。

当目标数据集远小于源数据集时,微调有助于提高模型的泛化能力。

14.2.2。热狗识别

让我们通过一个具体案例来演示微调:热狗识别。我们将在一个小型数据集上微调 ResNet 模型,该数据集是在 ImageNet 数据集上预训练的。这个小数据集包含数千张有热狗和没有热狗的图像。我们将使用微调模型从图像中识别热狗。

%matplotlib inline
import os
import torch
import torchvision
from torch import nn
from d2l import torch as d2l

%matplotlib inline
import os
from mxnet import gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

14.2.2.1。读取数据集

我们使用的热狗数据集取自在线图像。该数据集包含 1400 张包含热狗的正类图像,以及包含其他食物的大量负类图像。两个类别的 1000 张图像用于训练,其余用于测试。

解压下载的数据集后,我们得到两个文件夹 hotdog/train和hotdog/test. 这两个文件夹都有hotdog和 not-hotdog子文件夹,其中任何一个都包含相应类别的图像。

#@save
d2l.DATA_HUB['hotdog'] = (d2l.DATA_URL + 'hotdog.zip',
             'fba480ffa8aa7e0febbb511d181409f899b9baa5')

data_dir = d2l.download_extract('hotdog')

#@save
d2l.DATA_HUB['hotdog'] = (d2l.DATA_URL + 'hotdog.zip',
             'fba480ffa8aa7e0febbb511d181409f899b9baa5')

data_dir = d2l.download_extract('hotdog')

Downloading ../data/hotdog.zip from http://d2l-data.s3-accelerate.amazonaws.com/hotdog.zip...

我们创建两个实例来分别读取训练和测试数据集中的所有图像文件。

train_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train'))
test_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'test'))

train_imgs = gluon.data.vision.ImageFolderDataset(
  os.path.join(data_dir, 'train'))
test_imgs = gluon.data.vision.ImageFolderDataset(
  os.path.join(data_dir, 'test'))

前 8 个正面示例和最后 8 个负面图像如下所示。如您所见,图像的大小和纵横比各不相同。

hotdogs = [train_imgs[i][0] for i in range(8)]
not_hotdogs = [train_imgs[-i - 1][0] for i in range(8)]
d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4);

pYYBAGR4YniAE6iUAAOFYlOAqlA349.png

hotdogs = [train_imgs[i][0] for i in range(8)]
not_hotdogs = [train_imgs[-i - 1][0] for i in range(8)]
d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4);

pYYBAGR4YniAE6iUAAOFYlOAqlA349.png

在训练过程中,我们首先从图像中裁剪出一个随机大小和随机纵横比的随机区域,然后将这个区域缩放到 224×224输入图像。在测试过程中,我们将图像的高度和宽度都缩放到 256 像素,然后裁剪一个中心 224×224区域作为输入。此外,对于三个 RGB(红色、绿色和蓝色)颜色通道,我们逐通道标准化它们的值。具体来说,就是用该通道的每个值减去该通道的平均值,然后除以该通道的标准差。

# Specify the means and standard deviations of the three RGB channels to
# standardize each channel
normalize = torchvision.transforms.Normalize(
  [0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

train_augs = torchvision.transforms.Compose([
  torchvision.transforms.RandomResizedCrop(224),
  torchvision.transforms.RandomHorizontalFlip(),
  torchvision.transforms.ToTensor(),
  normalize])

test_augs = torchvision.transforms.Compose([
  torchvision.transforms.Resize([256, 256]),
  torchvision.transforms.CenterCrop(224),
  torchvision.transforms.ToTensor(),
  normalize])

# Specify the means and standard deviations of the three RGB channels to
# standardize each channel
normalize = gluon.data.vision.transforms.Normalize(
  [0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

train_augs = gluon.data.vision.transforms.Compose([
  gluon.data.vision.transforms.RandomResizedCrop(224),
  gluon.data.vision.transforms.RandomFlipLeftRight(),
  gluon.data.vision.transforms.ToTensor(),
  normalize])

test_augs = gluon.data.vision.transforms.Compose([
  gluon.data.vision.transforms.Resize(256),
  gluon.data.vision.transforms.CenterCrop(224),
  gluon.data.vision.transforms.ToTensor(),
  normalize])

14.2.2.2。定义和初始化模型

我们使用在 ImageNet 数据集上预训练的 ResNet-18 作为源模型。在这里,我们指定pretrained=True自动下载预训练模型参数。如果是第一次使用这个模型,需要连接互联网才能下载。

pretrained_net = torchvision.models.resnet18(pretrained=True)

预训练源模型实例包含多个特征层和一个输出层fc。这种划分的主要目的是为了便于微调除输出层之外的所有层的模型参数。fc下面给出源模型的成员变量。

pretrained_net.fc

Linear(in_features=512, out_features=1000, bias=True)

pretrained_net = gluon.model_zoo.vision.resnet18_v2(pretrained=True)

The pretrained source model instance contains two member variables: features and output. The former contains all layers of the model except the output layer, and the latter is the output layer of the model. The main purpose of this division is to facilitate the fine-tuning of model parameters of all layers but the output layer. The member variable output of source model is shown below.

pretrained_net.output

Dense(512 -> 1000, linear)

作为全连接层,它将 ResNet 最终的全局平均池化输出转化为 ImageNet 数据集的 1000 类输出。然后我们构建一个新的神经网络作为目标模型。它的定义方式与预训练源模型相同,不同之处在于它在最后一层的输出数量设置为目标数据集中的类数(而不是 1000)。

在下面的代码中,目标模型实例的输出层之前的模型参数finetune_net被初始化为源模型中相应层的模型参数。由于这些模型参数是通过在 ImageNet 上进行预训练获得的,因此它们是有效的。因此,我们只能使用较小的学习率来 微调此类预训练参数。相比之下,输出层中的模型参数是随机初始化的,通常需要更大的学习率才能从头开始学习。让基础学习率成为η, 学习率10η将用于迭代输出层中的模型参数。

finetune_net = torchvision.models.resnet18(pretrained=True)
finetune_net.fc = nn.Linear(finetune_net.fc.in_features, 2)
nn.init.xavier_uniform_(finetune_net.fc.weight);

finetune_net = gluon.model_zoo.vision.resnet18_v2(classes=2)
finetune_net.features = pretrained_net.features
finetune_net.output.initialize(init.Xavier())
# The model parameters in the output layer will be iterated using a learning
# rate ten times greater
finetune_net.output.collect_params().setattr('lr_mult', 10)

14.2.2.3。微调模型

首先,我们定义了一个train_fine_tuning使用微调的训练函数,因此它可以被多次调用。

# If `param_group=True`, the model parameters in the output layer will be
# updated using a learning rate ten times greater
def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5,
           param_group=True):
  train_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
    os.path.join(data_dir, 'train'), transform=train_augs),
    batch_size=batch_size, shuffle=True)
  test_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
    os.path.join(data_dir, 'test'), transform=test_augs),
    batch_size=batch_size)
  devices = d2l.try_all_gpus()
  loss = nn.CrossEntropyLoss(reduction="none")
  if param_group:
    params_1x = [param for name, param in net.named_parameters()
       if name not in ["fc.weight", "fc.bias"]]
    trainer = torch.optim.SGD([{'params': params_1x},
                  {'params': net.fc.parameters(),
                  'lr': learning_rate * 10}],
                lr=learning_rate, weight_decay=0.001)
  else:
    trainer = torch.optim.SGD(net.parameters(), lr=learning_rate,
                 weight_decay=0.001)
  d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
          devices)

def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5):
  train_iter = gluon.data.DataLoader(
    train_imgs.transform_first(train_augs), batch_size, shuffle=True)
  test_iter = gluon.data.DataLoader(
    test_imgs.transform_first(test_augs), batch_size)
  devices = d2l.try_all_gpus()
  net.collect_params().reset_ctx(devices)
  net.hybridize()
  loss = gluon.loss.SoftmaxCrossEntropyLoss()
  trainer = gluon.Trainer(net.collect_params(), 'sgd', {
    'learning_rate': learning_rate, 'wd': 0.001})
  d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
          devices)

我们将基础学习率设置为一个较小的值,以便微调 通过预训练获得的模型参数。基于前面的设置,我们将使用十倍大的学习率从头开始训练目标模型的输出层参数。

train_fine_tuning(finetune_net, 5e-5)

loss 0.201, train acc 0.930, test acc 0.948
888.0 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]

poYBAGR9O1GACPLaAAEAcN7DI9k186.svg

train_fine_tuning(finetune_net, 0.01)

loss 0.190, train acc 0.931, test acc 0.946
19.3 examples/sec on [gpu(0), gpu(1)]

pYYBAGR9O1OARuFHAAEBjUEc-aY687.svg

为了进行比较,我们定义了一个相同的模型,但将其所有模型参数初始化为随机值。由于整个模型需要从头开始训练,我们可以使用更大的学习率。

scratch_net = torchvision.models.resnet18()
scratch_net.fc = nn.Linear(scratch_net.fc.in_features, 2)
train_fine_tuning(scratch_net, 5e-4, param_group=False)

loss 0.382, train acc 0.832, test acc 0.833
1571.7 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]

poYBAGR9O1aAbZ7FAAEBd7ggZdQ368.svg

scratch_net = gluon.model_zoo.vision.resnet18_v2(classes=2)
scratch_net.initialize(init=init.Xavier())
train_fine_tuning(scratch_net, 0.1)

loss 0.383, train acc 0.833, test acc 0.836
21.0 examples/sec on [gpu(0), gpu(1)]

pYYBAGR9O1iATZ0LAAEBxvitBe0577.svg

正如我们所看到的,微调模型在同一时期往往表现更好,因为它的初始参数值更有效。

14.2.3。概括

迁移学习将从源数据集学到的知识迁移到目标数据集。微调是迁移学习的常用技术。

目标模型从源模型中复制所有模型设计及其参数(输出层除外),并根据目标数据集微调这些参数。相比之下,目标模型的输出层需要从头开始训练。

一般微调参数使用较小的学习率,而从头训练输出层可以使用较大的学习率。

14.2.4。练习

不断提高 的学习率finetune_net。模型的准确性如何变化?

在对比实验中进一步调整 和 的超参数finetune_net。 scratch_net它们的准确性仍然不同吗?

将输出层之前的参数设置finetune_net为源模型的参数,并且在训练期间不更新它们。模型的准确性如何变化?您可以使用以下代码。

事实上,ImageNet数据集中有一个“热狗”类。其在输出层对应的权重参数可以通过以下代码获取。我们如何利用这个权重参数?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26045
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14696
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Xilinx ISE Design Suite 14.2 安装图解

    电子发烧友网核心提示 :Xilinx ISE 14.2安装指南,包括Xilinx ISE 14.2软件下载、Xilinx ISE 14.2软件安装、Xilinx ISE 14.2相关产
    发表于 10-31 11:59 6.4w次阅读
    Xilinx ISE Design Suite <b class='flag-5'>14.2</b> 安装图解

    PyTorch教程-16.7。自然语言推理:微调 BERT

    16.7。自然语言推理:微调 BERT¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab
    的头像 发表于 06-05 15:44 1704次阅读
    <b class='flag-5'>PyTorch</b>教程-16.7。自然语言推理:<b class='flag-5'>微调</b> BERT

    ISE14.2license

    求助ISE14.2license
    发表于 07-10 22:13

    E2094P IO Libraries Suite 14.2数据表

    Detailed technical description of the features and capabilities of IO Libraries Suite 14.2.
    发表于 10-09 10:05

    PyTorch如何入门

    PyTorch 入门实战(一)——Tensor
    发表于 06-01 09:58

    Pytorch AI语音助手

    想做一个Pytorch AI语音助手,有没有好的思路呀?
    发表于 03-06 13:00

    如何安装TensorFlow2 Pytorch

    如何安装TensorFlow2 Pytorch
    发表于 03-07 07:32

    如何往星光2板子里装pytorch

    如题,想先gpu版本的pytorch只安装cpu版本的pytorch,pytorch官网提供了基于conda和pip两种安装方式。因为咱是risc架构没对应的conda,而使用pip安装提示也没有
    发表于 09-12 06:30

    如何让14.2版的Differential pair Con

    如何让14.2版的Differential pair Constraint对应到15版的 ECset ?  1. 前言 15版Differential pair Constraint有很大的改变,当你用15版來开启一个原本在14.2版的设计檔,有些
    发表于 09-06 11:01 0次下载

    iOS 14.2被破解!Checkra1n越狱更新!

    iOS 14.2正式版才发布没多久,有大神已经对它进行了越狱。 Checkra1n越狱已经更新,支持iOS 14.2. 该版本包括A10/A10X设备的官方支持和A11设备的有限支持(iPhone
    的头像 发表于 11-10 09:27 2929次阅读

    基于PyTorch的深度学习入门教程之PyTorch简单知识

    本文参考PyTorch官网的教程,分为五个基本模块来介绍PyTorch。为了避免文章过长,这五个模块分别在五篇博文中介绍。 Part1:PyTorch简单知识 Part2:PyTorch
    的头像 发表于 02-16 15:20 2775次阅读

    PyTorch教程14.2微调

    电子发烧友网站提供《PyTorch教程14.2微调.pdf》资料免费下载
    发表于 06-05 14:42 0次下载
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>14.2</b>之<b class='flag-5'>微调</b>

    PyTorch教程16.6之针对序列级和令牌级应用程序微调BERT

    电子发烧友网站提供《PyTorch教程16.6之针对序列级和令牌级应用程序微调BERT.pdf》资料免费下载
    发表于 06-05 10:51 0次下载
    <b class='flag-5'>PyTorch</b>教程16.6之针对序列级和令牌级应用程序<b class='flag-5'>微调</b>BERT

    PyTorch教程16.7之自然语言推理:微调BERT

    电子发烧友网站提供《PyTorch教程16.7之自然语言推理:微调BERT.pdf》资料免费下载
    发表于 06-05 10:52 0次下载
    <b class='flag-5'>PyTorch</b>教程16.7之自然语言推理:<b class='flag-5'>微调</b>BERT

    pytorch用来干嘛的

    实现,并允许从Python等高级语言编写神经网络的设计和训练。 PyTorch包含了许多用于Computer Vision和NLP等领域的预训练模型,可以对它们进行微调,以便更好地适应特定的任务。 在机器学习和深度学习领域中,PyTor
    的头像 发表于 08-21 16:41 1.1w次阅读