为什么损失函数可以是这个形式？机器学习的终极目标是什么？-电子发烧友网

我们知道逻辑回归的损失函数cost=-ylogo-(1-y)log(1-o)，其中o为模型输出，y为样本真实分布，为什么损失函数可以是这个形式？机器学习的终极目标是什么？机器学习中测试集起的作用是什么？

首先我们需要知道一个概念——信息量，它指的是一个事件发生所带来的信息。日常生活中，信息的载体是消息，比如“一个星期有7天”这条消息，它所带来的信息量我们可以认为是0，为什么呢?用大白话解释就是说了等于没说，因为“一个星期有7天”这个事件它是确定事件。又比如说“老板希望这个月32号发工资”，从科学的角度来讲，这个消息的信息量为无穷大，因为这是不可能事件。而另外一条消息“埃航一架飞机坠毁了”，这个消息带来的信息量就非常大，因为飞机发生事故的概率很小，而坠毁的概率就更小了，因此这个事件的不确定性非常大，所以这条消息带来的信息量很大。

题图：保罗·高更《我们从何处来？我们是谁？我们向何处去？》

总结一下，信息量反映一个事件不确定性的程度，它在数学上有一个定义，就是I=-log(p)，-log是递减函数，p越大，那么I就越小。也就是说，一个事件的确定性程度越高，它发生所带来的信息量就越小。

不过，当事件还没有发生的时候，就不是直接去求信息量了，而应该是求信息量的期望值，所以这个时候，我们要求的是信息熵，需要在信息量前面乘以该事件发生的概率，也就是信息熵H(P)=-Plog(P)，所以，信息熵反映的是一个事件还没有发生之前，它发生时候带来信息量的期望值。在以2为底求对数的时候，信息熵的单位可以记为bit。

也可以理解为，根据真实分布，我们能够找到一个最优策略，该策略可以以最小的代价消除系统的不确定性，而这个代价的大小就是信息熵。

介绍为信息熵H(P)之后，我们再来看交叉熵，交叉熵出现的背景是我们想知道分布Q是否可以代表分布P，放到机器学习中，假设测试集的分布可以认为是P，这个是确定的，因为正负样本都是我们提前标定好的，标定好那一刻之后，它的分布就被唯一确定了，而分布Q则是我们训练好的网络。现在，我们想知道对于测试样本的概率分布为P的情况下，训练好的网络的分布Q带给我们的不确定性期望值为多少？用公式描述就是用概率分布P去乘以训练好的网络的信息量：

H(P,Q)=-Plog(Q)

如果H(P,Q)为0，说明我们训练好的网络带来的不确定性为0，也就是说我们标定的数据为正，网络输出也为正，标定的数据为负，网络输出也为负，没有任何悬念可言，因此，使得交叉熵H(P,Q)=0不就是我们训练网络的终极目标吗？

最后，我们还要看相对熵（又称KL散度）的概念，在用分布Q去拟合分布P的时候，我们一定会多产生一些无关紧要的信息熵，那么这个多余的信息熵就是用交叉熵减去真实分布熵，用公式表示就是：

D(P||Q)=H(P,Q)-H(P)

一般情况下，在标记员标记好数据的那一刻，P的分布就已经确定了，H(P)可以认为是一个常数，所以优化H(P,Q)实际上就等于优化D(P||Q)，也就是说优化交叉熵等同于优化相对熵或优化KL散度，因此我们经常看到交叉熵、相对熵或KL散度混淆使用，原因就在这里。

那么回到逻辑回归中，样本要么为正，要么为负，假设测试集真实标签为y，模型输出为o，于是交叉熵为-ylog(o)-(1-y)log(1-o)，就得到了我们开头说的损失函数的形式。损失函数值越小，那么用模型的输出去逼近测试集真实的分布所消耗的额外信息熵就越小。需要注意的是，我们这里用测试集的分布来代表真实分布，因此测试集的选取是十分重要的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

信息

信息

+关注

关注
0

文章
406

浏览量
35396
函数

函数

+关注

关注
3

文章
3868

浏览量
61308
机器学习

机器学习

+关注

关注
66

文章
8122

浏览量
130556

原文标题：从信息论的角度来理解损失函数

文章出处：【微信号：DeepLearningDigest，微信公众号：深度学习每日摘要】欢迎添加关注！文章转载请注明出处。

[1.1.1]--VR的终极目标及当前的实现形式

vrVR/AR

学习电子知识

发布于 :2022年12月04日 22:17:48

[1.1.1]--VR的终极目标及当前的实现形式

vrVR/AR

jf_75936199

发布于 :2023年02月23日 02:31:09

【DIY扫地机器人】第二篇----勘察现场，制定计划

`《瓦力》里的MO应该是保洁实现人工智能化的终极目标，看到一个如此有洁癖的机器人，有时候都惭愧，科幻毕竟是科幻，我们可以朝着那个方向迈上一小步，相信我们的后人会实现这种既幽默又爱干净的高科技，就像

发表于 03-13 18:29

【小e物联网试用体验】之makefile

几个基本概念1，终极目标即make最终要创建的目标，所有其他目标的创建都依赖于此目标，make的执行也是从这里开始默认的终极目标一般是all

发表于 07-06 20:17

明德扬腾讯课堂第二课——SCCB接口、AD采集接口的设计

完整化、规范化，令学习方法至简、设计过程至简和设计结果至简，最终实现代码的“至简”设计，达到整洁漂亮的终极目标。

发表于 07-04 10:18

求一种stm32单片机按键消抖解决方案

如果有更好的解决方案或是发现天神的方案有问题，欢迎大家热烈讨论！明确按键的使用环境和终极目标使用环境首先我们的按键使用在有操作系统的环境中，不能使用占用CPU的延时函数，使用操作系统的延时每20ms

发表于 11-26 08:15

工作中的C++基本原理及技巧

目录基本原理抛弃托管扩展未来的乐趣编程的演变 终极目标 结束语，尽管不是再见这个月，我要改变常规的问答形式来告诉您关于

发表于 11-03 11:59 •23次下载

博通对终极目标高通公司的收购无果而终，今后的博通何去何从？

行业的并购终结者，博通(Broadcom Ltd., AVGO)对终极目标高通公司(Qualcomm Inc., QCOM)的收购无果而终，今后的博通何去何从？半导体行业经过数年的整合后，博通首席执行长陈福阳(Hock Tan)面临这样一种局面：很少有目标公司的影响力能

发表于 03-18 09:41 •4080次阅读

机器学习经典损失函数比较

所有的机器学习算法都或多或少的依赖于对目标函数最大化或者最小化的过程。我们常常将最小化的函数称为损失

发表于 06-13 17:53 •8218次阅读

机器学习实用指南:训练和损失函数

这个损失函数是合理的，因为当 $t$ 接近 0 时，$-log(t)$ 变得非常大，所以如果模型估计一个正例概率接近于 0，那么损失函数将会

发表于 06-29 15:02 •8317次阅读

人工智能的终极目标：类脑智能

这中间发生了什么？你可能回忆了两人第一次见面的情景，这个信息从短时记忆中广播出来，并传到大脑的各个长时记忆处理器上。其中一个处理器表示，她是做机器学习的。这个信息被传到意识中，再广播到

发表于 07-30 16:25 •2878次阅读

英飞凌举行各项质量项目，向实现“零缺陷”的质量终极目标不断前进。

是什么呢？自创立以来，零缺陷一直是英飞凌质量文化的重要理念，也是其卓越运营的关键要求。为此，英飞凌举行了各项质量项目，向实现零缺陷的质量终极目标不断前进。 3-2-1卓越绩效管理模式通过结合德国管理精髓与本地实践经验，英飞凌无锡独创了企业的长盛之道

发表于 09-16 16:51 •2235次阅读

机器学习和深度学习中分类与回归常用的几种损失函数

本文将介绍机器学习、深度学习中分类与回归常用的几种损失函数，包括均方差损失 Mean Squar

发表于 10-09 16:36 •5908次阅读

Gambetta：我们的终极目标是建造一个大规模的量子计算机

将阿波罗任务与下一代大蓝量子计算机进行了对比。在IBM Research上发表的一篇文章中，Gambetta说：就像登月一样，我们有一个终极目标，那就是进入一个超越经典计算机的领域：我们想要建造一个大规模的量子计算机。远大的抱负可以帮助人类实现登上月球的

发表于 10-29 10:18 •1684次阅读

stm32单片机按键消抖、长按、多击终极解决方案

如果有更好的解决方案或是发现天神的方案有问题，欢迎大家热烈讨论！明确按键的使用环境和终极目标使用环境首先我们的按键使用在有操作系统的环境中，不能使用占用CPU的延时函数，使用操作系统的延时每20ms

发表于 11-19 10:21 •59次下载

搜索历史

为什么损失函数可以是这个形式？机器学习的终极目标是什么？

评论

[1.1.1]--VR的终极目标及当前的实现形式

[1.1.1]--VR的终极目标及当前的实现形式

【DIY扫地机器人】第二篇----勘察现场，制定计划

【小e物联网试用体验】之makefile

明德扬腾讯课堂第二课——SCCB接口、AD采集接口的设计

求一种stm32单片机按键消抖解决方案

工作中的C++基本原理及技巧

博通对终极目标高通公司的收购无果而终，今后的博通何去何从？

机器学习经典损失函数比较

机器学习实用指南:训练和损失函数

人工智能的终极目标：类脑智能

英飞凌举行各项质量项目，向实现“零缺陷”的质量终极目标不断前进。

机器学习和深度学习中分类与回归常用的几种损失函数

Gambetta：我们的终极目标是建造一个大规模的量子计算机

stm32单片机按键消抖、长按、多击终极解决方案