0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习数学基础(三)之简单数学

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

以下有部分公式,如果无法显示,请访问原文链接

从本文开始,之后的三四篇我们都将沐浴在数学的海洋里,拼命地扑腾,这个系列我会尽力以通俗易懂的方式来讲述这些数学知识。

1 函数

1.1 一次函数

在数学函数中最基本、最重要的就是一次函数。也就是函数之基础、根本。它在神经网络的世界里也同样重要。

1.1.1 一元一次函数

这个函数可以用下面的式表示。$a$被称为斜率(用来控制直线的方向),$b$被称为截距(用来控制直线和原点的偏移)
$$y=ax+b(a、b为常数,a/neq 0)$$

当x、y两个变量满足上述公式时,就称为变量y和变量x是一次函数关系

有两个变量$x$和$y$,如果对每个$x$都有唯一确定的$y$与它对应,则称$y$是$x$的函数,用 $y=f(x)$ 表示。此时,称$x$为自变量,$y$为因变量。

一次函数的图像是直线,如下图的直线所示。

示例:一次函数$y=2x+1$的图像如下图所示,截距为 1,斜率为 2。

1.1.2 多元一次函数

上面我们说的$y=ax+b$中有一个变量x,我们称为一元,如果有多个变量,我们就称为是多元的,比如下面的式子。(有几个变量就是几元的,也可以理解为维度)
$$y=ax_1+bx_2+...+c(a、b、c为常数,a/neq 0,b/neq 0)$$

当多个变量满足上述公式时,也称为变量y与变量是一次函数关系

就像我们之前说的神经元的加权输入$z$就可以表示为一次函数关系。如果把作为参数的权重$w_1、w_2、...、w_n$与偏置$b$看作常数,那么加权输入$z$h和$w_1、w_2、...、w_n$就是一次函数关系。
$$z=w_1x_1+w_2x_2+...+w_nx_n+b$$

1.2 二次函数

1.2.1 一元二次函数

刚刚我们接触了一次函数,下面说说二次函数。二次函数很重要,像我们经常使用的代价函数平方误差就是二次函数。二次函数由下面的式表示。
$$y=ax^2+bx+c(a、b、c为常数,a/neq 0)$$

二次函数的图像是抛物线,如下图所示。我们会发现抛物线的凹凸(开口朝向)是通过上方式子中$a$的正负来决定的。

  1. 当$a>0$时,抛物线向上开口,向下凸起
  2. 当$a<0$时,抛物线向下开口,向上凸起。

所以当$a>0$时该函数的$y$存在最小值。(该性质是后面讲的最小二乘法的基础)

示例:二次函数$y=(x-1)^2+2$的图像如右图所示。从图像中可以看到,当$x=1$时,函数取得最小值$y=2$。

1.2.2 多元二次函数

在我们实际的神经网络中需要处理更多变量的二次函数,这些二次函数统称多元二次函数,学会了一元二次函数,那么多元二次函数就不会太难了,下面我们以一个二元二次函数进行举例。

就像我们使用的代价函数平方误差c就是多元二次函数:
$$C=(x_1-t_1)^2$$

1.3 单位阶跃函数

之前,我们已经接触过它了,还记得吗,作为生物界神经元的激活函数。下面我们再说一遍吧。

单位阶跃函数,在原点处不连续,也就是在原点处不可导,由于这两个性质,所以单位阶跃函数不能成为主要的激活函数。

$$u(x)=/left//{ /begin{matrix} 0/quad (x<0) //// 1/quad (x/ge 0) /end{matrix} /right//} $$

单位阶跃函数的图像如下:

1.4 指数函数

什么是指数函数呢?我们之前讲了一次函数和二次函数,其实只要把变量放到幂的位置,其实就是指数函数了,具有以下形状的函数称为指数函数,常数$a$被称为函数的底数
$$y=a^x(a为正的常数,a/neq 1)$$

指数函数的图像是类似于撇的一种样式,如下所示

上面说到底数,就不得不说自然常数$e$,又叫纳皮尔数或欧拉数,它和派$/pi$类似,是一个无限不循环小数,它的值如下
$$e/approx 2.71828...$$

1.4.1 sigmoid函数

上面说到自然常数e,那么就不得不提到大名鼎鼎的自然指数函数$e^x$,它在数学界有自己的标识expexp(x)

而我们这里所要讲的是包含自然指数函数的复合函数sigmoid函数,它是神经网络中很具有代表性的激活函数。它的公式如下
$$/sigma (x)=/frac { 1 }{ 1+{ e }^{ -x } } =/frac { 1 }{ 1+exp(-x) } $$

通过下方的图像,我们可以看到,这个函数是光滑的,这就代表着这个函数处处可导,函数的取值在(0,1)区间内,那么这个函数值就可以用概率来解释

1.5 正态分布的概率密度函数

在计算机实际确定神经网络时,我们需要首先给权重和偏置设定初始值,这样神经网络才能进行计算。而这个初始值怎么取呢,这个时候我们就会用到一个非常有用的工具,叫做正态分布,这里就不长篇大论的解释啥是正态分布了,它也没什么高大上的地方,就是概率分布中的一种分布方式,但是这个分布方式是及其复合人类和自然界的,有兴趣的朋友可以去深入了解下。在这里只说一下,我们在给神经网络分配权重和偏置时分配一个服从正态分布的随机数,会比较容易取得好的结果。

正态分布是服从下面的概率密度函数的概率分布。公式如下
$$f/left( x /right) =/frac { 1 }{ /sqrt { 2/pi /sigma } } { e }^{ -/frac { { (x-/mu ) }^{ 2 } }{ 2{ /sigma }^{ 2 } } }$$

  1. 常数$/mu$:期望值(平均值)
  2. $/sigma$:标注差

它的图像如下,由于形状像教堂的钟,所以被称为叫钟形曲线

示例:试作出期望值$/mu$为0、标准差$/sigma$为1 的正态分布的概率密度函数的图像。
$$f/left( x /right)=/frac { 1 }{ /sqrt { 2/pi } } e^{ -/frac { x^{ 2 } }{ 2 } }$$

2 数列

2.1 数列的含义

数列就是数的序列,比如下面就是偶数列的数列
$$2,4,6,8,...$$

数列中的每一个数都被称为,排在第一位的项叫做首项,排在第二位的项叫做第2项,以此类推,排在第n位的项叫做第n项(是不是有点废话),神经网络中出现的数列都是有限的数列,这种数列叫做有穷数列,在有穷数列中最后一项称为末项,数列中的数量称为项数,而像上面的偶数列是无穷数列

示例:考察下面的有穷数列的首项,末项以及项数
$$1,3,5,7,9$$

这个数列的首项是1,末项是9,项数是5

2.2 数列的通项公式

数列中排在第$n$项的数通常用$a_n$表示,这里$a$是数列的名字,可随意取。当想要表达整个数列时,使用集合的符号来表示,如$/left//{a_n/right//}$

将数列的第$n$项用一个关于$n$的式子标书出来,那么这个式子被称为通项公式,比如偶数列的通项公式就是下方的式子
$$a_n=2n$$

示例:求以下数列$/left//{b_n/right//}$的通项公式
$$1,3,5,7,9$$
通项公式为$b_n=2n-1$

在神经网络中,神经元的加权输入和输出可以看成数列,比如使用下方的展示方式:

  1. 加权输入:第$l$层的第$j$个神经元的加权输入用$z_j^l$
  2. 输出:第$l$层的第$j$个神经元的输出用$a_j^l$

2.3 数列与递推关系式

除了通项公式外,数列还有另外一种表示方式,就是用相邻的关系式来表示,这种表示法被称为数列的递归定义

一般,如果已知首项$a_n$以及相邻的两项$a/_n、a/_{n+1}$的关系式,那么就可以确定这个序列,这个关系式叫递推关系式

示例:已知首项$a_1=1$以及关系式$a/_{n+1}=a/_n+2$,可以确定以下数列,这个关系式就是数列的递推关系式。
$$a/_{1}=1////a/_{2}=a/_{1+1}=a/_{1}+2=1+2=3////a/_{3}=a/_{2+1}=a/_{2}+2=3+2=5////a/_{4}=a/_{3+1}=a/_{3}+2=5+2=7////...////a/_{1}=1,a/_{n+1}=a/_{n}+2$$

2.4 联立递推关系式

下面我们演示一个问题,这个算法就是神经网络中的误差反向传播中所用到的数列的解题算法联立递推算法

示例:求以下两个地推关系是定义的数列前3项,其中$a_1=b_1=1$
$$/begin{cases} a/_{ n+1 }=a/_{ n }+2b/_{ n }+2 //// b/_{n+1}=2a/_{n}+3b/_{n}+1 /end{cases}$$

解题:
$$/begin{cases} a/_{ 2 }=a/_{ 1 }+2b/_{ 1 }+2=1+2/times 1=5 //// b/_2=2a/_1+3b/_1+1=2/times 1+3/times 1+1=6 /end{cases}$$
$$/begin{cases} a/_{ 3 }=a/_{ 2 }+2b/_{ 2 }+2=5+2/times 6+2=19 //// b/_{ 3 }=2a/_{ 2 }+3b/_{ 2 }+1=2/times 5+3/times 6+1=39 /end{cases}$$

像这样,将多个数列的递推关系式联合起来组成一组,称为联立递推关系式。在神经网络的世界中,所有神经元的输入和输出在数学上都可以认为是用联立递推式联系起来的。例如,我们来看看之前文章中看过的一个神经元的图片

在箭头前端标记的是权重,神经元的圆圈中标记的是神经单元的输出变量。于是,如果以$a(z)$为激活函数,$b_1^3$、$b_2^3$为第3层各个神经元的偏置,那么以下关系式成立:
$${ a }/_{ 1 }^{ 3 }=a({ w }/_{ 11 }^{ 3 }{ a }/_{ 1 }^{ 2 }+{ w }/_{ 12 }^{ 3 }{ a }/_{ 2 }^{ 2 }+{ w }/_{ 13 }^{ 3 }{ a }/_{ 3 }^{ 2 }+{ b }/_{ 1 }^{ 3 })$$
$${ a }/_{ 2 }^{ 3 }=a({ w }/_{ 21 }^{ 3 }{ a }/_{ 1 }^{ 2 }+{ w }/_{ 22 }^{ 3 }{ a }/_{ 2 }^{ 2 }+{ w }/_{ 23 }^{ 3 }{ a }/_{ 3 }^{ 2 }+{ b }/_{ 2 }^{ 3 })$$

根据这些关系式,第3层的输出$a_1^3$和$a_2^3$由第2层的输出$a_1^2$、$a_2^2$、$a_3^2$决定。也就是说,第2层的输出与第3层的输出由联立递推关系式联系起来。我们之后学的误差反向传播就是将这种观点应用在神经网络中。

为什么要将联立递推应用在神经网络中呢?

其实是因为对比计算冗长的偏导关系式,计算机更加擅长计算递推关系。

评论请转至原文链接
本文来自纳兰小筑,本文不予回复,评论请追溯原文

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49757

    浏览量

    261686
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123923
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【乾芯QXS320F开发板试用】基于数学库IQmath定点库的调试

    )磁场同步旋转的坐标系(d-q坐标系)中,从而把复杂的交流控制问题,简化成类似直流电机的、简单的直流控制问题。 下面我们来详细解析涉及到的数学和相关公式。 1. Clarke 变换 (3s/2s
    发表于 12-08 22:48

    不止于数学:实际部署是筑牢后量子安全的关键环节

    院(NIST)已选定CRYSTALS-Kyber、CRYSTALS-Dilithium等算法推进标准化,这些算法均建立在研究充分、数学层面稳健的基础上。然而,仅有强大的算法设计还远远不够,如果部署过程存在安全隐患,密码系统仍将面临风险——算法安全性并不等同于部署安全性。 纵观密码学的历史
    的头像 发表于 11-21 15:57 234次阅读
    不止于<b class='flag-5'>数学</b>:实际部署是筑牢后量子安全的关键环节

    【EK-RA6E2开发指南】GPIO使用

    我相信大多数学习嵌入式的朋友学习单片机的第一个程序都是点灯,毕竟点灯简单嘛,操作下GPIO即可。当然,本教程的第一个应用也从GPIO的使用开始。
    的头像 发表于 09-23 18:13 3091次阅读
    【EK-RA6E2开发指南】GPIO使用

    深度学习对工业物联网有哪些帮助

    、实施路径个维度展开分析: 一、深度学习如何突破工业物联网的技术瓶颈? 1. 非结构化数据处理:解锁“沉睡数据”价值 传统困境 :工业物联网中70%以上的数据为非结构化数据(如设备振动波形、红外图像、日志文本),传统方法难以
    的头像 发表于 08-20 14:56 772次阅读

    【微五科技CF5010RBT60开发板试用体验】Cordic数学计算测试

    Cordic数学计算测试本文分享cordic硬件数学计算。 Xprintf.h配置支持浮点打印#define XF_USE_FP1 /* 1: Enable support for floating
    发表于 06-27 23:55

    经颅电刺激适应症系列tDCS提高数学能力

    数学能力的核心依赖于大脑多个区域的协同工作。通过功能性磁共振成像(fMRI)和脑刺激技术的研究,科学家发现顶叶皮层(尤其是双侧顶内沟(IPS)和角回(AG))是数字处理的核心区域。例如,当人们进行
    的头像 发表于 04-30 18:10 973次阅读
    经颅电刺激适应症系列<b class='flag-5'>之</b>tDCS提高<b class='flag-5'>数学</b>能力

    嵌入式AI技术深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据中所要表示的规律。从原理上看,使用
    的头像 发表于 04-02 18:21 1292次阅读

    (专家著作,建议收藏)电机的数学研究方法

    本鲁企圖系统地説明电机主要的、最新的数学研究方法。本需的材料在足够的程度上已包括用于研究电机过渡狀态和稳定 狀态的独特范圓。这些材料应用已經广泛流行的最新数学分析作为它 的湛础。电机过渡狀态和稳定狀
    发表于 04-01 15:02

    如何排除深度学习工作台上量化OpenVINO™的特定层?

    无法确定如何排除要在深度学习工作台上量化OpenVINO™特定层
    发表于 03-06 07:31

    大模型的数学能力或许一直都在关键在于如何唤醒它

    在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通大学的最新研究
    的头像 发表于 02-17 17:44 943次阅读
    大模型的<b class='flag-5'>数学</b>能力或许一直都在关键在于如何唤醒它

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文将概述
    的头像 发表于 02-14 11:15 828次阅读

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    场景 针对逻辑推理、符号操作、数学解题的深度优化 2. 关键能力对比 能力维度 DeepSeek-V3 DeepSeek-R1 数学推理 基础数学问题处理 显著强化(复杂方程、几何证明
    发表于 02-14 02:08

    BP神经网络与深度学习的关系

    BP神经网络与深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播神经网络(Backpropagation Neural Network
    的头像 发表于 02-12 15:15 1362次阅读

    数学专业转人工智能方向:考研/就业前景分析及大学四年学习路径全揭秘

    随着AI技术的不断进步,专业人才的需求也日益增长。数学作为AI的基石,为机器学习深度学习、数据分析等提供了理论基础和工具,因此越来越多的数学
    的头像 发表于 02-07 11:14 1712次阅读
    <b class='flag-5'>数学</b>专业转人工智能方向:考研/就业前景分析及大学四年<b class='flag-5'>学习</b>路径全揭秘

    深度学习入门:简单神经网络的构建与实现

    深度学习中,神经网络是核心模型。今天我们用 Python 和 NumPy 构建一个简单的神经网络。 神经网络由多个神经元组成,神经元之间通过权重连接。我们构建一个包含输入层、隐藏层和输出层的
    的头像 发表于 01-23 13:52 856次阅读