0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇文章讲清楚交叉熵和KL散度

深度学习自然语言处理 来源:PaperWeekly 作者:康斯坦丁 2022-11-16 15:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

看了很多讲交叉熵的文章,感觉都是拾人牙慧,又不得要领。还是分享一下自己的理解,如果看完这篇文章你还不懂这俩概念就来掐死我吧。

1

『先翻译翻译,什么叫惊喜』

我们用 表示事件 发生的概率。这里我们先不讨论概率的内涵, 只需要遵循直觉: 可以衡量事件 发生时会造成的惊喜(行文需要,请按照中性理解)程度: 概率越低的事件发生所造成的惊喜程度高;概率越高的事件发生所造成的惊喜程度低。 但是概率倒数这一运算的性质不是很好,所以在不改变单调性的情况下,可以将惊喜度(surprisal)定义为:

10ee981e-64f1-11ed-8abf-dac502259ad0.png

这样定义后产生了另外两个好处: 1. 确定性事件的惊喜度 = 0; 2. 如果有多个独立事件同时发生,他们产生的惊喜度可以直接相加。是的,一个事件发生概率的倒数再取对数就是惊喜。

2

『信息熵,不过只是惊喜的期望』

惊喜度,在大部分文章里,都叫做信息量,但这个命名只是香农根据他研究对象的需要而做的,对于很多其它的场景,要生搬硬套就会变得非常不好理解了。 信息量 = 惊喜度,那么信息熵呢?看看公式不言自明:

11065166-64f1-11ed-8abf-dac502259ad0.png

或是连续形式:

111e3ccc-64f1-11ed-8abf-dac502259ad0.png

这不就是惊喜度的期望吗? 换句话说,信息熵描述的是整个事件空间会产生的平均惊喜。 什么情况下,平均惊喜最低呢?确定事件。以某个离散随机分布为例,整个分布在特定值 为 1,其它处均为 0,此时的信息熵/平均惊喜也为 0。 什么情况下产生的平均惊喜最高呢?自然是不确定越高平均惊喜越高。对于给定均值和方差的连续分布,正态分布(高斯分布)具有最大的信息熵(也就是平均惊喜)。所以再想想为什么大量生活中会看到的随机事件分布都服从正态分布呢?说明大自然有着创造最大惊喜的倾向,或者说,就是要让你猜不透。这也是理解热力学中的熵增定律的另一个角度。

3

『交叉熵,交叉的是古典和贝叶斯学派』

对于概率,比较经典的理解是看做是重复试验无限次后事件频率会逼近的值,是一个客观存在的值;但是贝叶斯学派提出了另一种理解方式:即将概率理解为我们主观上对事件发生的确信程度。针对同一个随机变量空间有两个分布,分别记作和; 是我们主观认为会发生的概率,下标代表 subjective; 是客观上会发生的概率,下标 ○ 代表 objective。 这种情况下,客观上这个随机事件会给我们造成惊喜的期望应该是:

1132fa68-64f1-11ed-8abf-dac502259ad0.png

这个量 is a.k.a 交叉熵。 再翻译一下,交叉熵是什么?可以理解为:我们带着某个主观认知去接触某个客观随机现象的时候,会产生的平均惊喜度。 那什么时候交叉熵(也就是我们会获得的平均惊喜度)会大?就是当我们主观上认为一个事情发生的概率很低很大),但是客观上发生概率很高很大) 的时候,也就是主观认知和客观现实非常不匹配的时候。机器学习当中为啥用交叉熵来当作损失函数应该也就不言自明了。

4

『相对熵,K-L散度』

交叉熵可以衡量我们基于某种主观认识去感受客观世界时,会产生的平均惊喜。但是根据上面的分析,即使主观和客观完全匹配,这时交叉熵等于信息熵,只要事件仍然随机而非确定,就一定会给我们造成一定程度的惊喜。那我们要怎么度量主观认识和客观之间差异呢?可以用应该用以当前对“世界观”产生的惊喜期望和完全正确认识事件时产生的惊喜期望的差值来衡量,这个就是相对熵(常称作 KL-散度),通常写作:

11443508-64f1-11ed-8abf-dac502259ad0.png

当我们的主观认知完全匹配客观现实的时候,KL-散度应该等于 0,其它任何时候都会大于 0。由于存在恒为正这一性质,KL-散度经常用于描述两个分布是否接近,也就是作为两个分布之间“距离”的度量;不过由于运算不满足交换律,所以又不能完全等同于“距离”来理解。 机器学习中通常用交叉熵作为损失函数的原因在与,客观分布并不随参数变化,所以即使是优化 KL-散度,对参数求导的时候也只有交叉熵的导数了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 交叉熵
    +关注

    关注

    0

    文章

    4

    浏览量

    2496

原文标题:一篇文章讲清楚交叉熵和KL散度

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    单模 vs 多模:光纤选择终极指南

    很多朋友在组建网络时都会遇到个核心问题:我到底该用多模光纤还是单模光纤?今天,小易就为大家彻底讲清楚这两者的区别,帮助您做出最经济、高效的选择。
    的头像 发表于 12-08 14:12 30次阅读
    单模 vs 多模:光纤选择终极指南

    别再迷糊了!Linux交叉编译到底是个啥?讲清楚

    就用 不绕弯子、接地气、工程师能看懂 的方式,把交叉编译讲得明明白白。 而且结合我们钡铼技术(BaileiTech)那些跑在 ARM、RISC-V、国产嵌入式 Linux 的产品,告诉你交叉编译在工业场景里究竟为什么重要。
    的头像 发表于 12-03 16:28 405次阅读
    别再迷糊了!Linux<b class='flag-5'>交叉</b>编译到底是个啥?<b class='flag-5'>一</b>文<b class='flag-5'>讲清楚</b>

    讲清楚TVS二极管的作用和分类

    TVS二极管(Transient Voltage Suppression Diode,瞬态电压抑制二极管)是种专门用于抑制电路中瞬态过电压的半导体器件,其核心作用是通过快速响应和低钳位电压保护
    的头像 发表于 11-18 16:41 1363次阅读
    <b class='flag-5'>一</b>文<b class='flag-5'>讲清楚</b>TVS二极管的作用和分类

    讲清楚线性霍尔灵敏和输出关系

    线性霍尔灵敏与输出范围的关系解析 、核心定义与物理基础 灵敏(Sensitivity) 线性霍尔传感器的灵敏(单位:mV/mT 或 mV/G)表示单位磁场强度变化时输出电压的变
    的头像 发表于 11-18 16:38 451次阅读

    GPIO、PWM、ADC,到底怎么区分?

    在嵌入式开发中,我们经常听到GPIO、PWM、ADC这些术语。初学者常常搞不清楚它们的区别和用途:“它们不是都是和电平有关吗?为什么还要分这么多种?”今天,我们就把这些基础概念讲清楚,让你在动手开发
    的头像 发表于 11-14 10:28 233次阅读
    GPIO、PWM、ADC,到底怎么区分?

    工业级防爆型PDA手持终端(化工/石油/矿场等场景)的实操指南

    今天讲防爆型PDA手持终端,主要会讲到:为什么要用防爆PDA、它们到底怎么防爆、要看哪些证书与参数、不同场景的选型与落地注意点、以及采购/验收/运维清单”都会尽量讲清楚
    的头像 发表于 11-04 15:02 275次阅读
    工业级防爆型PDA手持终端(化工/石油/矿场等场景)的实操指南

    高压放大器稳定性与振铃

    在实际的操作使用中,高压驱动电路时遇到了稳定性问题:输出波形出现 振荡或振铃。且高压放大器本身带宽有限、压摆率受限,驱动容性负载时矛盾 会更突出。从物理本质讲清楚:相位裕不足是根源。 首先相位裕
    的头像 发表于 10-10 11:38 231次阅读

    CSD船用变压器铁芯硅钢片,真能扛住盐雾和振动吗?

    变压器就要拆下来返工,码头多停天,成本就多烧天。今天,我们就把硅钢片在船用环境里的真实表现,拆开来讲清楚。硅钢片到底是什么?简单说,它是片片极薄的含硅钢板,
    的头像 发表于 08-23 09:44 585次阅读
    CSD船用变压器铁芯硅钢片,真能扛住盐雾和振动吗?

    阿里云设备的物模型数据里面始终没有值是哪里的问题?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里云没问题。采用阿里云物模型的格式来上发就不行。请大佬指教!
    发表于 08-05 06:43

    文了解什么是 BQB 认证

    讲清楚、什么是BQB认证?BQB是BluetoothQualificationBody的缩写,即“蓝牙资格认证”。它是由**蓝牙技术联盟(BluetoothSI
    的头像 发表于 07-18 14:53 1330次阅读
    <b class='flag-5'>一</b>文了解什么是 BQB 认证

    讲清楚芯片的分类-多个维度

    芯片作为现代电子设备的核心组件,其分类方式多样,以下从功能、应用领域、制造工艺、集成、设计架构、用途、数据类型、工作方式、材料及封装形式十个维度进行详细阐述: 、按功能分类 1. 处理器芯片
    的头像 发表于 05-06 15:04 5126次阅读

    讲清楚电动汽车充电系统

    充电系统是新能源汽车主要的能源供给系统,为保障车辆持续行驶提供动力能源。电动汽车的充电系统是新能源转型的关键组成部分,直接影响着车辆的使用体验与效率。根据电动汽车动力蓄电池的技术特性和使用性质,其充电模式主要分为常规充电、快速充电和快速换电三种。常规充电(慢充):使用交流电,由外部电网提供220V民用单相交流电给电动汽车车载充电机,再由车载充电机给动力电池充
    的头像 发表于 01-24 16:58 4343次阅读
    <b class='flag-5'>一</b>文<b class='flag-5'>讲清楚</b>电动汽车充电系统

    桃芯科技软件审核简介

    本文档对如何审核个项目的软件是否符合量产要求进行阐述;审核目的为确保软件足够健全、稳定、易于量产,做出更有品质的产品;该文档不一定会讲清楚每个检测项,但会尽可能提示你如何掌控调整方向。
    的头像 发表于 01-24 09:24 782次阅读

    基科技厦门研发中心荣获CMMI5认证

    近日,基科技厦门研发中心传来喜讯,该中心成功通过了软件开发成熟能力CMMI v.3.0五级认证(简称“CMMI5”),这国际权威认可再次证明了基科技在软件研发领域的卓越实力。
    的头像 发表于 01-14 15:34 881次阅读

    分布式光伏的电到底该怎么用?今天给你讲清楚

    光伏
    jf_55902079
    发布于 :2024年12月27日 13:04:43