0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有关深度学习的25个问题

倩倩 来源:CSDN 2020-04-17 11:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本文中,我将分享有关深度学习的25个问题,希望能够帮助你为面试做好准备。

1.为什么必须在神经网络中引入非线性?

答:否则,我们将获得一个由多个线性函数组成的线性函数,那么就成了线性模型。线性模型的参数数量非常少,因此建模的复杂性也会非常有限。

2.说明解决神经网络中梯度消失问题的两种方法。

答:

使用ReLU激活函数代替S激活函数。

使用Xavier初始化。

3.在图像分类任务中,相较于使用密集神经网络(Dense Neural Network,DNN),使用卷积神经网络(Convolutional Neural Network,CNN)有哪些优势?

答:虽然两种模型都可以捕获彼此靠近的像素之间的关系,但CNN具有以下属性:

它是平移不变的:对于过滤器而言,像素的确切位置是无关的。

更不容易发生过度拟合:一般而言CNN中的参数比DNN要少很多。

方便我们更好地理解模型:我们可以查看过滤器的权重,并可视化神经网络的学习成果。

分层性质:通过使用较简单的模式描述复杂的模式来学习模式。

4. 说明在图像分类任务中可视化CNN特征的两种方法。

答:

输入遮挡:遮挡输入图像的一部分,看看哪部分对分类的影响最大。 例如,针对某个训练好的图像分类模型,将下列图像作为输入。如果我们看到第三幅图像被分类为狗狗的概率为98%,而第二幅图像的准确率仅为65%,则说明眼睛对于对分类的影响更大。

激活最大化:创建一个人造的输入图像,以最大化目标响应(梯度上升)。

5. 在优化学习速率时,分别尝试学习速率:0.1、0.2,…,0.5是好办法吗?

答:这种方法并不好,建议使用对数比例来优化学习速率。

6. 假设一个神经网络拥有3层的结构和ReLU激活函数。如果我们用同一个值初始化所有权重,结果会怎样?如果我们只有1层(即线性/逻辑回归)会怎样?

答:如果所有权重的初始值都相同,则无法破坏对称性。也就是说,所有梯度都会更新成同一个值,而且神经网络将无法学习。但是,如果神经网络只有1层的话,成本函数是凸形的(线性/ S型),因此权重始终会收敛到最佳点,无论初始值是什么(收敛可能会较慢)。

7.解释Adam优化器的概念。

答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。

8.比较批处理,小批处理和随机梯度下降。

答:批处理是指在估计数据时获取整个数据;小批处理是通过对几个数据点进行采样来进行小批量处理;而随机梯度下降是指在每个时期更新一个数据点的梯度。我们需要权衡梯度计算的准确度与保存在内存中的批量大小。此外,通过在每个epoch添加随机噪声,我们可以通过小批处理(而非整个批处理)实现正规化效果。

9.什么是数据扩充?举个例子。

答:数据扩充是一种技术,通过操作原始数据来增加输入数据。例如,对于图像,我们可以执行以下操作:旋转图像、翻转图像、添加高斯模糊等。

10. 解释GAN的概念。

答:GAN(Generative Adversarial Network)即生成对抗网络,通常由两个神经网络D和G组成,其中D指的是判别器(Discriminator),而G指生成网络(Generative Network)。这种模型的目标是创建数据,例如创建与真实图像并无二样的图像。假设我们想要创建一只猫的对抗示例。神经网络G负责生成图像,而神经网络D则负责判断图像是否是猫。G的目标是“愚弄”D——将G的输出始终分类为猫。

11.使用Batchnorm有什么优势?

答:Batchnorm能够加快训练过程,而且(一些噪音的副产品)还具有调节作用。

12.什么是多任务学习?应该在什么时候使用?

答:当我们使用少量数据处理多个任务时,多任务处理将很有用,而且我们还可以使用在其他任务的大型数据集上训练好的模型。通过“硬”方式(即相同的参数)或“软”方式(即对成本函数进行正则化/惩罚)共享模型的参数。

13.什么是端到端学习?列举一些优点。

答:端到端学习通常是一个模型,该模型能够获取原始数据并直接输出所需的结果,而无需任何中间任务或功能工程。其优点包括:无需手工构建功能,而且通常可以降低偏差。

14.如果在最后一层中,我们先使用ReLU激活函数,然后再使用Sigmoid函数,会怎样?

答:由于ReLU始终会输出非负结果,因此该神经网络会将所有输入预测成同一个类别!

15.如何解决梯度爆炸的问题?

答:解决梯度爆炸问题的一个最简单的方法就是梯度修剪,即当梯度的绝对值大于M(M是一个很大的数字)时,设梯度为±M。

16.使用批量梯度下降法时,是否有必要打乱训练数据?

答:没有必要。因为每个epoch的梯度计算都会使用整个训练数据,所以打乱顺序也没有任何影响。

17.当使用小批量梯度下降时,为什么打乱数据很重要?

答:如果不打乱数据的顺序,那么假设我们训练一个神经网络分类器,且有两个类别:A和B,那么各个epoch中的所有小批量都会完全相同,这会导致收敛速度变慢,甚至导致神经网络对数据的顺序产生倾向性。

18.列举迁移学习的超参数。

答:保留多少层、添加多少层、冻结多少层。

19. 测试集上是否需要使用dropout?

答:不可以使用!dropout只能用于训练集。dropout是训练过程中应用的一种正则化技术。

20.说明为什么神经网络中的dropout可以作为正则化。

答:关于dropout的工作原理有几种解释。我们可以将其视为模型平均的一种形式:我们可以在每一步中“去掉”模型的一部分并取平均值。另外,它还会增加噪音,自然会产生调节的效果。最后,它还可以稀释权重,从根本上阻止神经网络中神经元的共适应。

21. 举个适合多对一RNN架构的例子。

答:例如:情绪分析,语音中的性别识别等。

22.我们什么时候不能使用BiLSTM?说明在使用BiLSTM我们必须做的假设。

答:在所有双向模型中,我们都可以假设在给定的“时间”内访问序列的下一个元素。文本数据(例如情感分析、翻译等)就是这种情况,而时间序列数据则不属于这种情况。

23. 判断对错:将L2正则化添加到RNN有助于解决梯度消失的问题。

答:错误!添加L2正则化会将权重缩小为零,在某些情况下这实际上会让梯度消失的问题更严重。

24. 假设训练错误/成本很高,而且验证成本/错误几乎与之相等。这是什么意思?我们应该做些什么?

答:这表明欠拟合。我们可以添加更多参数,增加模型的复杂性或减少正则化。

25. 说明为何L2正则化可以解释为一种权重衰减。

答:假设我们的成本函数为C(w),我们再加上一个c|w|2。使用梯度下降时,迭代如下:

w = w -grad(C)(w) — 2cw = (1–2c)w — grad(C)(w)

在该等式中,权重乘以因子《1

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106797
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123905
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 54次阅读

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 693次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    、实施路径三维度展开分析: 一、深度学习如何突破工业物联网的技术瓶颈? 1. 非结构化数据处理:解锁“沉睡数据”价值 传统困境 :工业物联网中70%以上的数据为非结构化数据(如设备振动波形、红外图像、日志文本),传统方法难以
    的头像 发表于 08-20 14:56 757次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3917次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    深度学习遇上嵌入式资源困境,特征空间如何破局?

    近年来,随着人工智能(AI)技术的迅猛发展,深度学习(Deep Learning)成为最热门的研究领域之一。在语音识别、图像识别、自然语言处理等领域,深度学习取得了显著成果。从原理上看
    发表于 07-14 14:50 1119次阅读
    当<b class='flag-5'>深度</b><b class='flag-5'>学习</b>遇上嵌入式资源困境,特征空间如何破局?

    深度操作系统deepin 25全面支持凹语言

    近日,deepin(深度)社区宣布,deepin 25 现已完成对国产通用编程语言凹语言 (Wa-Lang) 的兼容性测试。在 deepin 25 默认安装环境下,即可直接使用凹语言进行程序的编译、运行与测试,无需额外复杂配置。
    的头像 发表于 07-10 15:26 798次阅读
    <b class='flag-5'>深度</b>操作系统deepin <b class='flag-5'>25</b>全面支持凹语言

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据中所要表示的规律。从原理上看,使用
    的头像 发表于 04-02 18:21 1281次阅读

    用树莓派搞深度学习?TensorFlow启动!

    介绍本页面将指导您在搭载64位Bullseye操作系统的RaspberryPi4上安装TensorFlow。TensorFlow是一专为深度学习开发的大型软件库,它消耗大量资源。您可以在
    的头像 发表于 03-25 09:33 963次阅读
    用树莓派搞<b class='flag-5'>深度</b><b class='flag-5'>学习</b>?TensorFlow启动!

    在OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO™ 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    如何排除深度学习工作台上量化OpenVINO™的特定层?

    无法确定如何排除要在深度学习工作台上量化OpenVINO™特定层
    发表于 03-06 07:31

    SLAMTEC Aurora:把深度学习“卷”进机器人日常

    在人工智能和机器人技术飞速发展的今天,深度学习与SLAM(同步定位与地图构建)技术的结合,正引领着智能机器人行业迈向新的高度。最近科技圈顶流DeepSeek简直杀疯了!靠着逆天的深度学习
    的头像 发表于 02-19 15:49 723次阅读

    军事应用中深度学习的挑战与机遇

    ,并广泛介绍了深度学习在两主要军事应用领域的应用:情报行动和自主平台。最后,讨论了相关的威胁、机遇、技术和实际困难。主要发现是,人工智能技术并非无所不能,需要谨慎应用,同时考虑到其局限性、网络安全威胁以及
    的头像 发表于 02-14 11:15 818次阅读

    BP神经网络与深度学习的关系

    ),是一种多层前馈神经网络,它通过反向传播算法进行训练。BP神经网络由输入层、一或多个隐藏层和输出层组成,通过逐层递减的方式调整网络权重,目的是最小化网络的输出误差。 二、深度学习的定义与发展
    的头像 发表于 02-12 15:15 1340次阅读

    AI自动化生产:深度学习在质量控制中的应用

    随着科技的飞速发展,人工智能(AI)与深度学习技术正逐步渗透到各个行业,特别是在自动化生产中,其潜力与价值愈发凸显。深度学习软件不仅使人工和基于规则的算法难以胜任的大量生产任务得以自动
    的头像 发表于 01-17 16:35 1210次阅读
    AI自动化生产:<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在质量控制中的应用

    百度深度学习专利申请量位列全球第一

    近日,全球领先的知识产权解决方案提供商Questel,发布全球深度学习专利全景报告。
    的头像 发表于 01-15 09:29 818次阅读