0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

分类模型评估指标汇总

电子设计 来源:电子设计 作者:电子设计 2020-12-10 21:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:努力的孔子

对模型进行评估时,可以选择很多种指标,但不同的指标可能得到不同的结果,如何选择合适的指标,需要取决于任务需求。

正确率与错误率

正确率:正确分类的样本数/总样本数,accuracy

错误率:错误分类的样本数/总样本数,error

正确率+错误率=1

这两种指标最简单,也最常用

缺点

不一定能反应模型的泛化能力,如类别不均衡问题。

不能满足所有任务需求

如有一车西瓜,任务一:挑出的好瓜中有多少实际是好瓜,任务二: 所有的好瓜有多少被挑出来了,显然正确率和错误率不能解决这个问题。

查准率与查全率

先认识几个概念

正样本/正元组:目标元组,感兴趣的元组

负样本/负元组:其他元组

对于二分类问题,模型的预测结果可以划分为:真正例 TP、假正例 FP、真负例 TN、 假负例 FN,

真正例就是实际为正、预测为正,其他同理

显然 TP+FP+TN+FN=总样本数

混淆矩阵

把上面四种划分用混淆矩阵来表示

从而得出如下概念

查准率:预测为正里多少实际为正,precision,也叫精度

查全率:实际为正里多少预测为正,recall,也叫召回率

查准率和查全率是一对矛盾的度量。通常来讲,查准率高,查全率就低,反之亦然。

例如还是一车西瓜,我希望将所有好瓜尽可能选出来,如果我把所有瓜都选了,那自然所有好瓜都被选了,这就需要所有的瓜被识别为好瓜,此时查准率较低,而召回率是100%,

如果我希望选出的瓜都是好瓜,那就要慎重了,宁可不选,不能错选,这就需要预测为正就必须是真正例,此时查准率是100%,查全率可能较低。

注意我说的是可能较低,通常如果样本很好分,比如正的全分到正的,负的全分到负的,那查准率、查全率都是100%,不矛盾。

P-R曲线

既然矛盾,那两者之间的关系应该如下图

这条曲线叫 P-R曲线,即查准率-查全率曲线。

这条曲线怎么画出来的呢?可以这么理解,假如我用某种方法得到样本是正例的概率(如用模型对所有样本进行预测),然后把样本按概率排序,从高到低

如果模型把第一个预测为正,其余预测为负,此时查准率为1,查全率接近于0,

如果模型把前2个预测为正,其余预测为负,此时查准率稍微降低,查全率稍微增加,

依次...

如果模型把除最后一个外的样本预测为正,最后一个预测为负,那么查准率很低,查全率很高。

此时我把数据顺序打乱,画出来的图依然一样,即上图。

既然查准率和查全率互相矛盾,那用哪个作为评价指标呢?或者说同时用两个指标怎么评价模型呢?

两种情形

如果学习器A的P-R曲线能完全“包住”学习器C的P-R曲线,则A的性能优于C

如果学习器A的P-R曲线与学习器B的P-R曲线相交,则难以判断孰优孰劣,此时通常的作法是,固定查准率,比较查全率,或者固定查全率,比较查准率。

通常情况下曲线会相交,但是人们仍希望把两个学习器比出个高低,一个合理的方式是比较两条P-R曲线下的面积。

但是这个面积不好计算,于是人们又设计了一些其他综合考虑查准率查全率的方式,来替代面积计算。

平衡点:Break-Event Point,简称BEP,就是选择 查准率=查全率 的点,即上图,y=x直线与P-R曲线的交点

这种方法比较暴力

F1 与 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的调和平均数。

与算数平均数 和 几何平均数相比,调和平均数更重视较小值。

在一些应用中,对查准率和查全率的重视程度有所不同。

例如商品推荐系统,为了避免骚扰客户,希望推荐的内容都是客户感兴趣的,此时查准率比较重要,

又如资料查询系统,为了不漏掉有用信息,希望把所有资料都取到,此时查全率比较重要。

此时需要对查准率和查全率进行加权

即 P 和 R 的加权调和平均数。

β>0,β度量了查全率对查准率的重要性,β=1时即为F1

β>1,查全率更重要,β<1,查准率更重要

多分类的F1

多分类没有正例负例之说,那么可以转化为多个二分类,即多个混淆矩阵,在这多个混淆矩阵上综合考虑查准率和查全率,即多分类的F1

方法1

直接在每个混淆矩阵上计算出查准率和查全率,再求平均,这样得到“宏查准率”,“宏查全率”和“宏F1”

方法2

把混淆矩阵中对应元素相加求平均,即 TP 的平均,TN 的平均,等,再计算查准率、查全率、F1,这样得到“微查准率”,“微查全率”和“微F1”

ROC 与 AUC

很多学习器是为样本生成一个概率,然后和设定阈值进行比较,大于阈值为正例,小于为负例,如逻辑回归。

而模型的优劣取决于两点:

这个概率的计算准确与否

阈值的设定

我们把计算出的概率按从大到小排序,然后在某个点划分开,这个点就是阈值,可以根据实际任务需求来确定这个阈值,比如更重视查准率,则阈值设大点,若更重视查全率,则阈值设小点,

这里体现了同一模型的优化,

不同的模型计算出的概率是不一样的,也就是说样本按概率排序时顺序不同,那切分时自然可能分到不同的类,

这里体现了不同模型之间的差异,

所以ROC可以用来模型优化和模型选择,理论上讲 P-R曲线也可以。

ROC曲线的绘制方法与P-R曲线类似,不再赘述,结果如下图

横坐标为假正例率,纵坐标为真正例率,曲线下的面积叫 AUC

如何评价模型呢?

若学习器A的ROC曲线能包住学习器B的ROC曲线,则A优于B

若学习器A的ROC曲线与学习器B的ROC曲线相交,则难以比较孰优孰劣,此时可以比较AUC的大小

总结

模型评估主要考虑两种场景:类别均衡,类别不均衡

模型评估必须考虑实际任务需求

P-R 曲线和 ROC曲线可以用于模型选择

ROC曲线可以用于模型优化

参考资料:

周志华《机器学习

本文由博客一文多发平台 OpenWrite 发布!

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3819

    浏览量

    52274
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124637
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微电网可靠性评估指标体系的权重如何确定?

    微电网可靠性评估指标体系涵盖多维度,既包括系统平均停电频率(SAIFI)、系统平均停电时间(SAIDI)、平均供电可用率(ASAI)等经典系统侧指标,也包含负荷停电损失、新能源出力可靠性等负荷侧
    的头像 发表于 04-15 10:01 261次阅读
    微电网可靠性<b class='flag-5'>评估</b><b class='flag-5'>指标</b>体系的权重如何确定?

    微电网可靠性评估理论:指标体系与评估方法

    微电网可靠性评估理论,本质是通过构建科学的指标体系、采用合理的评估方法,量化微电网在不同运行工况下的供电能力与故障应对能力,为微电网的规划设计、运行调控、设备升级提供精准的数据支撑与决策依据。其中
    的头像 发表于 04-10 11:38 140次阅读
    微电网可靠性<b class='flag-5'>评估</b>理论:<b class='flag-5'>指标</b>体系与<b class='flag-5'>评估</b>方法

    零碳园区的碳减排效果评估指标有哪些?

    碳减排效果评估是零碳园区建设的关键环节,而科学完善的评估指标体系则是精准量化降碳成效、优化转型路径的核心依据。零碳园区的碳减排效果评估需突破传统园区单一能耗
    的头像 发表于 03-10 13:38 862次阅读
    零碳园区的碳减排效果<b class='flag-5'>评估</b><b class='flag-5'>指标</b>有哪些?

    图像采集卡分类、接口与性能指标详解

    、接口类型与性能指标直接决定了视觉系统的成像质量、传输效率和实时处理能力。以下从分类、主流接口、核心性能指标三个维度展开详解,覆盖工业级、商用级全场景应用特性。一
    的头像 发表于 01-29 16:55 707次阅读
    图像采集卡<b class='flag-5'>分类</b>、接口与性能<b class='flag-5'>指标</b>详解

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    , batch_size=512, epochs=20)总结 这个核心算法中的卷积神经网络结构和训练过程,是用来对MNIST手写数字图像进行分类的。模型将图像作为输入,通过卷积和池化层提取图像的特征,然后通过全连接层进行分类
    发表于 10-22 07:03

    如何评估谐波治理措施的效果?

    对新能源设备的损耗与危害。具体评估体系可拆解为 核心评估指标、关键评估方法、标准化评估流程 三部分,同时需结合新能源场景(光伏、风电、储能)
    的头像 发表于 10-14 17:04 1111次阅读

    迅为iTOP-RK3568人工智能开发板mobilenet图像分类模型推理测试

    想快速验证MobileNet图像分类模型的实际运行效果?迅为iTOP-RK3568人工智能开发板,让模型推理测试高效又省心。
    的头像 发表于 08-28 15:53 1559次阅读
    迅为iTOP-RK3568人工智能开发板mobilenet图像<b class='flag-5'>分类</b><b class='flag-5'>模型</b>推理测试

    详解SPICE器件模型分类

    今天我们来聊聊工程师在仿真时比较关注的问题。众多的器件模型,我在仿真的时候到底应该怎么选择一个器件的模型?我使用的这个器件模型的精确度够吗?我自己能否做一个器件模型来支持我的电路仿真?
    的头像 发表于 08-28 13:42 1847次阅读
    详解SPICE器件<b class='flag-5'>模型</b>的<b class='flag-5'>分类</b>

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
    的头像 发表于 08-27 14:06 1165次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b><b class='flag-5'>汇总</b>

    NanoEdge AI生成的模型库,在keil里面编译后运行,返回都是0,没挑出单分类,怎么解决?

    我打算识别具有特定特征的曲线,我按照单分类进行训练。2维数据,输入时间序列数据,得分90+分,得到模型后。验证得分90+,我就在keil里面使用验证所用的数据,挑选了一些无特征和有特征的数据,判断结果都返回0。 如何解决呢?
    发表于 08-12 07:52

    如何评估协议分析仪的性能指标

    评估协议分析仪的性能指标需从硬件处理能力、协议解析精度、实时响应效率、扩展性与兼容性、用户体验五大维度综合考量。以下是具体指标评估方法,结合实际场景说明其重要性:一、硬件处理能力:决
    发表于 07-18 14:44

    天线的工作原理、分类及性能指标

    到神秘的雷达探测,从家庭电视信号接收到底层的遥感技术,天线的应用无处不在,其性能优劣直接关系到通信质量与信号覆盖范围。本文将深入剖析天线的工作原理、分类、性能指标以及测量方法,带您领略天线的神奇世界。
    的头像 发表于 07-07 13:39 5950次阅读
    天线的工作原理、<b class='flag-5'>分类</b>及性能<b class='flag-5'>指标</b>

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI多模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有模型中,获得当前最高评级——4+级,并成为国内首家
    的头像 发表于 06-11 11:57 1568次阅读

    知识分享 | 评估模型架构——如何实现?

    确保良好的模型架构对于开发安全和可靠的软件非常重要。本文为您介绍MES Model Examiner® (MXAM)如何优化模型架构,简化复杂度管理步骤,并最终提升软件质量。
    的头像 发表于 06-05 11:46 762次阅读
    知识分享 | <b class='flag-5'>评估</b><b class='flag-5'>模型</b>架构——如何实现?

    别踩雷!二手应用材料双通道磁铁驱动器及通道电源采购的关键评估指标

    本文聚焦二手应用材料双通道磁铁驱动器及通道电源采购,系统梳理关键评估指标,包括核心性能、元件状态、功能完整性等方面,为采购者提供科学评估依据,助力规避采购风险,获取性能可靠的二手设备。 引言 在
    的头像 发表于 06-05 09:43 717次阅读
    别踩雷!二手应用材料双通道磁铁驱动器及通道电源采购的关键<b class='flag-5'>评估</b><b class='flag-5'>指标</b>