0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇文章讲清楚交叉熵和KL散度

深度学习自然语言处理 来源:PaperWeekly 作者:康斯坦丁 2022-11-16 15:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

看了很多讲交叉熵的文章,感觉都是拾人牙慧,又不得要领。还是分享一下自己的理解,如果看完这篇文章你还不懂这俩概念就来掐死我吧。

1

『先翻译翻译,什么叫惊喜』

我们用 表示事件 发生的概率。这里我们先不讨论概率的内涵, 只需要遵循直觉: 可以衡量事件 发生时会造成的惊喜(行文需要,请按照中性理解)程度: 概率越低的事件发生所造成的惊喜程度高;概率越高的事件发生所造成的惊喜程度低。 但是概率倒数这一运算的性质不是很好,所以在不改变单调性的情况下,可以将惊喜度(surprisal)定义为:

10ee981e-64f1-11ed-8abf-dac502259ad0.png

这样定义后产生了另外两个好处: 1. 确定性事件的惊喜度 = 0; 2. 如果有多个独立事件同时发生,他们产生的惊喜度可以直接相加。是的,一个事件发生概率的倒数再取对数就是惊喜。

2

『信息熵,不过只是惊喜的期望』

惊喜度,在大部分文章里,都叫做信息量,但这个命名只是香农根据他研究对象的需要而做的,对于很多其它的场景,要生搬硬套就会变得非常不好理解了。 信息量 = 惊喜度,那么信息熵呢?看看公式不言自明:

11065166-64f1-11ed-8abf-dac502259ad0.png

或是连续形式:

111e3ccc-64f1-11ed-8abf-dac502259ad0.png

这不就是惊喜度的期望吗? 换句话说,信息熵描述的是整个事件空间会产生的平均惊喜。 什么情况下,平均惊喜最低呢?确定事件。以某个离散随机分布为例,整个分布在特定值 为 1,其它处均为 0,此时的信息熵/平均惊喜也为 0。 什么情况下产生的平均惊喜最高呢?自然是不确定越高平均惊喜越高。对于给定均值和方差的连续分布,正态分布(高斯分布)具有最大的信息熵(也就是平均惊喜)。所以再想想为什么大量生活中会看到的随机事件分布都服从正态分布呢?说明大自然有着创造最大惊喜的倾向,或者说,就是要让你猜不透。这也是理解热力学中的熵增定律的另一个角度。

3

『交叉熵,交叉的是古典和贝叶斯学派』

对于概率,比较经典的理解是看做是重复试验无限次后事件频率会逼近的值,是一个客观存在的值;但是贝叶斯学派提出了另一种理解方式:即将概率理解为我们主观上对事件发生的确信程度。针对同一个随机变量空间有两个分布,分别记作和; 是我们主观认为会发生的概率,下标代表 subjective; 是客观上会发生的概率,下标 ○ 代表 objective。 这种情况下,客观上这个随机事件会给我们造成惊喜的期望应该是:

1132fa68-64f1-11ed-8abf-dac502259ad0.png

这个量 is a.k.a 交叉熵。 再翻译一下,交叉熵是什么?可以理解为:我们带着某个主观认知去接触某个客观随机现象的时候,会产生的平均惊喜度。 那什么时候交叉熵(也就是我们会获得的平均惊喜度)会大?就是当我们主观上认为一个事情发生的概率很低很大),但是客观上发生概率很高很大) 的时候,也就是主观认知和客观现实非常不匹配的时候。机器学习当中为啥用交叉熵来当作损失函数应该也就不言自明了。

4

『相对熵,K-L散度』

交叉熵可以衡量我们基于某种主观认识去感受客观世界时,会产生的平均惊喜。但是根据上面的分析,即使主观和客观完全匹配,这时交叉熵等于信息熵,只要事件仍然随机而非确定,就一定会给我们造成一定程度的惊喜。那我们要怎么度量主观认识和客观之间差异呢?可以用应该用以当前对“世界观”产生的惊喜期望和完全正确认识事件时产生的惊喜期望的差值来衡量,这个就是相对熵(常称作 KL-散度),通常写作:

11443508-64f1-11ed-8abf-dac502259ad0.png

当我们的主观认知完全匹配客观现实的时候,KL-散度应该等于 0,其它任何时候都会大于 0。由于存在恒为正这一性质,KL-散度经常用于描述两个分布是否接近,也就是作为两个分布之间“距离”的度量;不过由于运算不满足交换律,所以又不能完全等同于“距离”来理解。 机器学习中通常用交叉熵作为损失函数的原因在与,客观分布并不随参数变化,所以即使是优化 KL-散度,对参数求导的时候也只有交叉熵的导数了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
  • 交叉熵
    +关注

    关注

    0

    文章

    4

    浏览量

    2512

原文标题:一篇文章讲清楚交叉熵和KL散度

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ​VA和W怎么换算?功率因数怎么算?优比施电源讲清楚

    ​在选购UPS电源或任何电气设备时,很多人都会遇到个困惑:设备铭牌上标注的VA和W到底是什么意思?它们之间有什么关系?为什么有的设备标500VA,有的标500W,两者却不相等?今天,优比施电源就从
    的头像 发表于 03-07 13:31 536次阅读
    ​VA和W怎么换算?功率因数怎么算?优比施电源<b class='flag-5'>一</b>次<b class='flag-5'>讲清楚</b>

    智能保温杯CE认证办理指南

    随着智能穿戴与智能家居产品的发展,智能保温杯逐渐成为跨境电商热门产品。若产品出口至 欧盟 市场,必须符合CE认证要求,否则无法合法销售。 那么,智能保温杯需要做哪些CE认证项目?下面讲清楚
    的头像 发表于 02-27 16:08 181次阅读
    智能保温杯CE认证办理指南

    MTBF测试对电子产品的重要性

    MTBF 不只是个 “小时数”,它是产品可靠性的身份证,直接决定能不能卖、好不好卖、卖完稳不稳。下面用最直白的逻辑讲清楚它为什么重要。
    的头像 发表于 02-25 11:28 196次阅读
    MTBF测试对电子产品的重要性

    什么是新能源移动充电车?文章讲清楚它的类型和原理

    随着全球新能源汽车市场高速发展,传统的固定充电基础设施在城市高密度区域、老旧小区以及配电网承载力方面面临着严峻挑战。在此背景下,新能源 移动充电车 作为种创新的解决方案快速崛起,其核心优势在于
    的头像 发表于 01-20 14:36 891次阅读

    什么是交流状态采集模块?隔离RS485+AC输入隔离双隔离设计讲清楚

    在工业自动化、工业物联网(IIoT)领域,交流状态采集模块是专门用于实时监测、采集交流电气回路运行状态的硬件单元,你可以把它理解为工业现场里,盯着交流电路“一举一动”的智能侦察兵——核心作用是把交流
    的头像 发表于 01-12 17:46 156次阅读

    压接款连接器优势有哪些?讲清楚

    突破接线瓶颈,凌科电气M20系列压接款工业连接器全新上市——以卓越的可靠性与极致便捷,重新定义工业连接标准。
    的头像 发表于 01-06 13:57 871次阅读

    企业为什么开始换用 RFID智能硬盘柜?选型标准讲清楚

    在企业的数据资产管理体系中,硬盘直是非常特殊的类介质。它体积小、价值高、存储密度大,旦丢失或流转不规范,风险远高于纸质档案。本文结合业内广泛采用斯科两款机型——CK-GYP 和 CK-GYP1,把企业在选型时真正需要关注的
    的头像 发表于 12-10 09:38 352次阅读

    单模 vs 多模:光纤选择终极指南

    很多朋友在组建网络时都会遇到个核心问题:我到底该用多模光纤还是单模光纤?今天,小易就为大家彻底讲清楚这两者的区别,帮助您做出最经济、高效的选择。
    的头像 发表于 12-08 14:12 1312次阅读
    单模 vs 多模:光纤选择终极指南

    别再迷糊了!Linux交叉编译到底是个啥?讲清楚

    就用 不绕弯子、接地气、工程师能看懂 的方式,把交叉编译讲得明明白白。 而且结合我们钡铼技术(BaileiTech)那些跑在 ARM、RISC-V、国产嵌入式 Linux 的产品,告诉你交叉编译在工业场景里究竟为什么重要。
    的头像 发表于 12-03 16:28 1291次阅读
    别再迷糊了!Linux<b class='flag-5'>交叉</b>编译到底是个啥?<b class='flag-5'>一</b>文<b class='flag-5'>讲清楚</b>

    讲清楚TVS二极管的作用和分类

    TVS二极管(Transient Voltage Suppression Diode,瞬态电压抑制二极管)是种专门用于抑制电路中瞬态过电压的半导体器件,其核心作用是通过快速响应和低钳位电压保护
    的头像 发表于 11-18 16:41 2828次阅读
    <b class='flag-5'>一</b>文<b class='flag-5'>讲清楚</b>TVS二极管的作用和分类

    讲清楚线性霍尔灵敏和输出关系

    线性霍尔灵敏与输出范围的关系解析 、核心定义与物理基础 灵敏(Sensitivity) 线性霍尔传感器的灵敏(单位:mV/mT 或 mV/G)表示单位磁场强度变化时输出电压的变
    的头像 发表于 11-18 16:38 1345次阅读

    工业级防爆型PDA手持终端(化工/石油/矿场等场景)的实操指南

    今天讲防爆型PDA手持终端,主要会讲到:为什么要用防爆PDA、它们到底怎么防爆、要看哪些证书与参数、不同场景的选型与落地注意点、以及采购/验收/运维清单”都会尽量讲清楚
    的头像 发表于 11-04 15:02 699次阅读
    工业级防爆型PDA手持终端(化工/石油/矿场等场景)的实操指南

    阿里云设备的物模型数据里面始终没有值是哪里的问题?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里云没问题。采用阿里云物模型的格式来上发就不行。请大佬指教!
    发表于 08-05 06:43

    文了解什么是 BQB 认证

    讲清楚、什么是BQB认证?BQB是BluetoothQualificationBody的缩写,即“蓝牙资格认证”。它是由**蓝牙技术联盟(BluetoothSI
    的头像 发表于 07-18 14:53 2111次阅读
    <b class='flag-5'>一</b>文了解什么是 BQB 认证

    讲清楚芯片的分类-多个维度

    芯片作为现代电子设备的核心组件,其分类方式多样,以下从功能、应用领域、制造工艺、集成、设计架构、用途、数据类型、工作方式、材料及封装形式十个维度进行详细阐述: 、按功能分类 1. 处理器芯片
    的头像 发表于 05-06 15:04 6926次阅读