0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇文章讲清楚交叉熵和KL散度

深度学习自然语言处理 来源:PaperWeekly 作者:康斯坦丁 2022-11-16 15:35 次阅读

看了很多讲交叉熵的文章,感觉都是拾人牙慧,又不得要领。还是分享一下自己的理解,如果看完这篇文章你还不懂这俩概念就来掐死我吧。

1

『先翻译翻译,什么叫惊喜』

我们用 表示事件 发生的概率。这里我们先不讨论概率的内涵, 只需要遵循直觉: 可以衡量事件 发生时会造成的惊喜(行文需要,请按照中性理解)程度: 概率越低的事件发生所造成的惊喜程度高;概率越高的事件发生所造成的惊喜程度低。 但是概率倒数这一运算的性质不是很好,所以在不改变单调性的情况下,可以将惊喜度(surprisal)定义为:

10ee981e-64f1-11ed-8abf-dac502259ad0.png

这样定义后产生了另外两个好处: 1. 确定性事件的惊喜度 = 0; 2. 如果有多个独立事件同时发生,他们产生的惊喜度可以直接相加。是的,一个事件发生概率的倒数再取对数就是惊喜。

2

信息熵,不过只是惊喜的期望』

惊喜度,在大部分文章里,都叫做信息量,但这个命名只是香农根据他研究对象的需要而做的,对于很多其它的场景,要生搬硬套就会变得非常不好理解了。 信息量 = 惊喜度,那么信息熵呢?看看公式不言自明:

11065166-64f1-11ed-8abf-dac502259ad0.png

或是连续形式:

111e3ccc-64f1-11ed-8abf-dac502259ad0.png

这不就是惊喜度的期望吗? 换句话说,信息熵描述的是整个事件空间会产生的平均惊喜。 什么情况下,平均惊喜最低呢?确定事件。以某个离散随机分布为例,整个分布在特定值 为 1,其它处均为 0,此时的信息熵/平均惊喜也为 0。 什么情况下产生的平均惊喜最高呢?自然是不确定越高平均惊喜越高。对于给定均值和方差的连续分布,正态分布(高斯分布)具有最大的信息熵(也就是平均惊喜)。所以再想想为什么大量生活中会看到的随机事件分布都服从正态分布呢?说明大自然有着创造最大惊喜的倾向,或者说,就是要让你猜不透。这也是理解热力学中的熵增定律的另一个角度。

3

『交叉熵,交叉的是古典和贝叶斯学派』

对于概率,比较经典的理解是看做是重复试验无限次后事件频率会逼近的值,是一个客观存在的值;但是贝叶斯学派提出了另一种理解方式:即将概率理解为我们主观上对事件发生的确信程度。针对同一个随机变量空间有两个分布,分别记作和; 是我们主观认为会发生的概率,下标代表 subjective; 是客观上会发生的概率,下标 ○ 代表 objective。 这种情况下,客观上这个随机事件会给我们造成惊喜的期望应该是:

1132fa68-64f1-11ed-8abf-dac502259ad0.png

这个量 is a.k.a 交叉熵。 再翻译一下,交叉熵是什么?可以理解为:我们带着某个主观认知去接触某个客观随机现象的时候,会产生的平均惊喜度。 那什么时候交叉熵(也就是我们会获得的平均惊喜度)会大?就是当我们主观上认为一个事情发生的概率很低很大),但是客观上发生概率很高很大) 的时候,也就是主观认知和客观现实非常不匹配的时候。机器学习当中为啥用交叉熵来当作损失函数应该也就不言自明了。

4

『相对熵,K-L散度』

交叉熵可以衡量我们基于某种主观认识去感受客观世界时,会产生的平均惊喜。但是根据上面的分析,即使主观和客观完全匹配,这时交叉熵等于信息熵,只要事件仍然随机而非确定,就一定会给我们造成一定程度的惊喜。那我们要怎么度量主观认识和客观之间差异呢?可以用应该用以当前对“世界观”产生的惊喜期望和完全正确认识事件时产生的惊喜期望的差值来衡量,这个就是相对熵(常称作 KL-散度),通常写作:

11443508-64f1-11ed-8abf-dac502259ad0.png

当我们的主观认知完全匹配客观现实的时候,KL-散度应该等于 0,其它任何时候都会大于 0。由于存在恒为正这一性质,KL-散度经常用于描述两个分布是否接近,也就是作为两个分布之间“距离”的度量;不过由于运算不满足交换律,所以又不能完全等同于“距离”来理解。 机器学习中通常用交叉熵作为损失函数的原因在与,客观分布并不随参数变化,所以即使是优化 KL-散度,对参数求导的时候也只有交叉熵的导数了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8126

    浏览量

    130571
  • 交叉熵
    +关注

    关注

    0

    文章

    4

    浏览量

    2332

原文标题:一篇文章讲清楚交叉熵和KL散度

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    M8连接器对使用环境有什么要求,一篇文章讲清楚!

    M8连接器对使用环境有什么要求?德索精密工业,专业生产M8连接器十八年,欢迎前来采购M8相关产品。任何产品在使用中,或多或少对使用环境都有一定的要求,由于统一物体在不同环境中的技术机能也会发生改变。而航空插头常常被应用到各个不同环境中,为确保机能的不乱,知足在各个复杂恶劣的环境中应用的需求,它的环境机能十分重要。
    的头像 发表于 03-18 16:39 165次阅读
    M8连接器对使用环境有什么要求,一篇文章<b class='flag-5'>讲清楚</b>!

    一文认识压敏电阻

    今天这篇文章用5000字的篇幅讲清楚压敏电阻。
    的头像 发表于 11-20 17:34 1220次阅读
    一文认识压敏电阻

    一文讲清楚PLC应用系统设计与调试的主要步骤

    设计应用系统梯形图程序 根据工作功能图表或状态流程图等设计出梯形图即编程。这一步是整个应用系统设计的最核心工作,也是比较困难的一步,要设计好梯形图,首先要十分熟悉控制要求,同时还要有一定的电气设计的实践经验。
    的头像 发表于 10-08 16:21 553次阅读
    一文<b class='flag-5'>讲清楚</b>PLC应用系统设计与调试的主要步骤

    次性给你讲清楚同步

    DIY电子技术
    学习电子知识
    发布于 :2023年09月05日 22:31:05

    Linux系统调用的具体实现原理

    文我将基于 ARM 体系结构角度,从 Linux 应用层例子到内核系统调用函数的整个过程来梳理一遍,讲清楚linux系统调用实现原理,这里我们以open系统调用为例来讲解。
    的头像 发表于 09-05 17:16 761次阅读
    Linux系统调用的具体实现原理

    什么是电气原理图的自锁、互锁、联锁,条视频讲清楚

    电路电流电容
    学习电子知识
    发布于 :2023年08月01日 23:58:39

    电容器电容的“通交流、阻直流”,条视频讲清楚

    电路电流电容
    学习电子知识
    发布于 :2023年08月01日 23:46:46

    7分钟超长视频彻底讲清楚电压这件事

    电压
    学习电子知识
    发布于 :2023年07月26日 21:01:10

    6分钟超长视频讲清楚电容器

    开关电源电容
    学习电子知识
    发布于 :2023年07月26日 21:00:49

    一文讲清楚 “电路反馈”

    一、反馈的基本概念 1.1 什么是反馈? 反馈,就是把放大电路的输出量的一部分或全部,通过反馈网络以一定的方式又引回到放大电路的输入回路中去,以影响电路的输入信号作用的过程。 1.2 放大电路中引入反馈的作用 放大电路静态工作点会随温度的变化而上下波动,其放大倍数不稳定,为了稳定放大电路的静态工作点,可采用分压式工作点稳定电路,在电路中引入一个直流电流负反馈。 为了提高输入电阻,降低输出电阻,可采用射极输出器,在射极
    的头像 发表于 06-17 19:35 827次阅读
    一文<b class='flag-5'>讲清楚</b> “电路反馈”

    LabVIEW中信号的频谱功率谱怎么求

    LabVIEW中频谱功率谱怎么求
    发表于 06-11 20:43

    1个视频讲清楚:PLC指令如何实现定位控制?#硬声创作季

    plc
    或许
    发布于 :2023年05月30日 15:28:44

    浅显易懂地讲清楚什么是电磁兼容

    电磁兼容性(EMC)”主要分为两种,一种是设备本身的电磁噪声对其他设备或人体带来的影响(电磁干扰,EMI:Electromagnetic Interference, Emission),另一种是设备是否会因来自外部的电磁干扰而发生误动作(电磁敏感性EMS:Electromagnetic Susceptibility, Immunity),之所称为“电磁兼容性”,是由于为了避免发生故障,这两方面都要兼顾。
    的头像 发表于 05-18 16:49 525次阅读

    RKP201KL 数据表

    RKP201KL 数据表
    发表于 05-11 20:14 0次下载
    RKP201<b class='flag-5'>KL</b> 数据表

    我印象中的快速傅里叶变换 (FFT)

    首先,FFT是离散傅立叶变换 (DFT) 的快速算法,那么说到FFT,我们自然要先讲清楚傅立叶变换。先来看看傅立叶变换是从哪里来的?
    的头像 发表于 05-05 09:57 815次阅读
    我印象中的快速傅里叶变换 (FFT)