0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型任务的评价指标体系

深度学习自然语言处理 来源:AI算法小喵 2023-01-11 10:10 次阅读

1. 写在前面

模型“好”与“坏”的评价指标直接由业务目标/任务需求决定。我们需要做的是:根据具体的业务目标/任务需求去选择相应的评价指标,继而选出符合业务目标/任务需求的好模型。在此之前,我们需要全面了解一个任务的评价指标体系。

在二分类任务评价指标(上)中,我们已经学习了如何利用混淆矩阵来计算二分类的精度、错误率指标。今天,我们继续来学习二分类任务的其他评价指标。

2. 查准率、查全率

2.1 精度、错误率指标的局限

acc(精度、准确率)、error_rate(错误率)是分类任务中最常用的性能评价指标,多数情况下使用精度、错误率是合适的选择。比如,在「好瓜坏瓜」的西瓜问题中,如果我们关心的仅是“有多少西瓜被判别正确或错误”,那么精度和错误率就很适合。

但是,如果我们关心的是“被我们判别为好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我们判断为好瓜”时,精度和错误率就不适合了。

再比如,在工业生产的「机器故障」预测应用中,业务目标是希望模型能将机器所有发生故障的时间预测出来,显然精度指标并不适合这样的场景。为什么呢?

首先,我们知道精度衡量的是分类正确的样本数占总样本数的比例,然而通常来说机器发生故障的次数是比较少的(比如只有2%的时间发生故障)。那么,即便每次机器发生故障时模型都预测错误,它的精度也可高达到98%。这样一个模型完全就是一个摆设,在实际生产中毫无用处。

2.2 查准率、查全率

在上面精度、错误率不适用的场景中,查准率(精确率,Precision,P)和查全率(召回率,recall,R)是更适合的模型评价指标。

2.2.1 查准率、查全率指标定义

我们还是利用混淆矩阵来计算二分类任务的查准率和查全率。

真实类别 预测类别
正例 负例
正例 TP(真正例) FN(假负例)
负例 FP(假正例) TN(真负例)

假设我们有如上混淆矩阵,那么查准率的定义如下:

即查准率是预测正确的正例(TP)占所有预测为正例的样本(TP+FP)的比例。

查全率定义如下:

即查全率是预测正确的正例(TP)占总正例(TP+FN)的比例。

2.2.2 查准率、查全率含义

在「好瓜坏瓜」西瓜问题中:

查准率:衡量了“被判别为好瓜的西瓜中有多少比例是真正的好瓜” ;

查全率:衡量了“所有真正的好瓜中有多少比例被判断为好瓜” ;

在「机器故障预测」问题中:

查准率:衡量了“被预测发生故障的时间中有多少比例确实发生了故障” ;

查全率:衡量了“机器发生故障的所有时间中有多少比例被预测出来了” ;

类似的,在「信息检索/web搜索」中:

查准率:衡量了“检索出的信息中有多少比例是用户真正感兴趣的”

查全率:衡量了“用户感兴趣的信息中有多少比例被检索出来了”

在「垃圾邮件检测」中:

查准率:衡量了“被预测为垃圾邮件的所有邮件中有多少比例的确是垃圾邮件”

查全率:衡量了“所有垃圾邮件中有多少比例被检测出来了”

在「诈骗电话检测」中:

查准率:衡量了“被预测为诈骗电话的来电中有多少比例是诈骗电话”

查全率:衡量了“所有诈骗电话中有多少比例被检测出来了”

2.2.3 查准率、查全率的矛盾

我们当然希望模型不仅有高查准率,也有高查全率。但事实上,查准率与查全率通常情况下是相互矛盾的,或者说查准率、查全率是一对相互矛盾的指标。

知乎上有个例子可以帮助我们直观地理解这个“矛盾性”。假设我们的模型是找到人群中隐藏的坏人,那么:

看重查全率: “宁可错杀一千,不可漏过一个”。

看重查准率: “宁可漏过坏人,不可错杀无辜的好人”。

更具体地,比如在「好瓜坏瓜」西瓜问题中,假设“好瓜”和“坏瓜”并没有那么容易区分(复杂问题),这时要想获得高查全率,就需要降低筛选标准,极端一点我们将所有西瓜都预测为好瓜,那么查全率就是100%,但是查准率就很低;而要想获得高查准率,就需要提高筛选标准,极端一点我们只将一个最有把握的西瓜预测为好瓜,并且预测准确了,那么查准率就是100%,但是查全率就很低。

3.

既然查准率、查全率是一对相互矛盾的指标,我们就需要明确在不同的业务目标/任务需求中到底是希望查准率比较高还是查全率比较高。

3.1

当然,在二分类任务中,我们也有综合考虑了查准率和查全率的评价指标 F-Mesure(F-Score, ),它的定义如下:

其中 ()可视为权重参数,它度量了查准率和查全率的相对重要性。换句话说是查准率和查全率的加权调和平均。

由上式 的倒数的定义可知,当 时,相当于查全率被放大了,所以查全率有更大的影响;当 时,相当于查全率被缩小了,所以准率有更大的影响。

也就是说:

:更看重查全率指标。

:更看重查准率指标。

3.2 F1

在 中,当 时,也退化成了我们常见的 指标:

显然,根据下面的等价形式,可以知道在F1指标中,查准率和查全率同样重要:

编辑:何安

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 矩阵
    +关注

    关注

    0

    文章

    406

    浏览量

    34250
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47687

原文标题:、

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是氮化镓技术指标体系分解

    小编在这里给大家分享一下什么是氮化镓技术指标?什么是氮化镓技术指标体系? 以碳化硅和氮化镓为代表的第三代半导体,具有高频、高效、高功率、耐高压、耐高温、抗辐射能力强等优越性能,其中氮化镓是一种
    发表于 02-16 16:07 1320次阅读
    什么是氮化镓技术<b class='flag-5'>指标体系</b>分解

    什么是数据指标体系?如何设计指标体系

    什么是数据指标体系?为什么需要指标体系?如何设计指标体系?什么是数据分析?
    发表于 07-02 06:51

    什么是数据指标体系?如何设计指标体系

    什么是数据指标体系?为什么需要指标体系?如何去设计指标体系
    发表于 09-10 07:27

    AHP法在城市政府管理评估指标体系中的应用

    城市政府管理评估指标体系对城市的定位、发展水平和发展方向至关重要,但是,目前国际上还没有一套现成的评估指标体系。该文引入AHP法,在众多的城市政府管理评估指标
    发表于 12-13 02:08 6次下载

    信息系统可生存性定量评估的指标体系

    从内容、攻击阶段、测定标准等不同角度综合分析可生存性指标,提出一种能系统地反映可生存性的指标体系,给出其形式化描述和数学模型。分析与验证结果表明,该指标体系
    发表于 03-28 09:18 13次下载

    供需链仿真系统功能评价体系分析

    针对供需链仿真系统的需求分析与设计问题,在综述国内外供需链仿真系统功能现状的基础上,给出评价系统性能的指标体系,基于该套评价方法对现有主流供需链仿真系统的功能
    发表于 04-09 09:03 13次下载

    预警指标体系的本体建模及其应用

    借鉴多目标决策树中规范化的思想,提出将一般指标体系结构规范化为由一个根节点和若干叶子节点构成的2层多叉树。根据领域本体的建模方法论,建立基于描述逻辑的指标体系
    发表于 04-11 09:59 16次下载

    知识型员工任务评价信息系统的指标模型

    为解决企业人才评价和成长问题,以B/S模式构建企业任务分派、评价及分析网络信息系统。针对企业知识型员工的任务和创新业绩管理构建较为实用的评价
    发表于 04-11 10:05 24次下载

    公共部门绩效评价软件的指标适应性技术

    构建绩效评价指标体系是公共部门绩效评价的基础工程之一,进行绩效评价前需要确立能适应政府公共部门所处历史时期和外部环境的绩效评价
    发表于 04-14 09:14 7次下载

    基于标准的系统安全测试指标体系的研究

    本文从操作系统的安全功能出发,结合CC 标准的测评原理,按照威胁、安全目的、系统安全功能组件和具体指标的顺序,提出一套系统安全测试的全面的指标体系,该指标可根据需
    发表于 08-07 14:55 13次下载

    机械行业清洁生产评价指标体系

    为了贯彻落实《中华人民共和国清洁生产促进法》,指导和推动机械行业企业依法实施清洁生产,提高资源利用率,减少或避免污染物的产生,保护和改善环境,制定机械行业清洁生产评价指标体系(试行)(以下简称指标体系)。 本
    发表于 03-16 15:19 36次下载

    网络安全态势要素指标体系研究

    针对网络安全态势评估指标体系的不完善和难以选取及构建等问题,以相关标准和规范为基础,从系统安全机制出发,按照既定原则,提出一种网络安全态势要素指标体系构建方法,并
    发表于 07-06 16:55 33次下载

    基于非负矩阵分解的城市公交网络综合评价模型

    针对城市公交网络的评价问题,在综合考虑城市公交系统诸多因素的基础上,建立了城市公交网络系统的综合评价指标体系。然后利用非负矩阵分解的知识,提取出指标体系中的主要综
    发表于 07-12 13:53 0次下载
    基于非负矩阵分解的城市公交网络综合<b class='flag-5'>评价</b><b class='flag-5'>模型</b>

    指标评价系统设计与实现

    针对具有不确定性的混合多指标评价问题,介绍了定性指标和定量指标的数据提取方法,结合证据推理法的基本理论,采用混合编程技术,开发了证据推理评价
    发表于 11-29 11:29 2次下载
    多<b class='flag-5'>指标</b><b class='flag-5'>评价</b>系统设计与实现

    指标、建联系、建用法,指标体系就这样做!

    进而,体系的缺位会导致组织的“数据指南针”失效。越是在大型组织当中,指标体系越为重要,因为决策者离一线业务较远;公司的业务虚拟属性越强,指标体系越为重要,因为公司与客户的距离较远。
    的头像 发表于 02-06 16:45 456次阅读