0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何画roc曲线?为什么使用Roc和Auc评价分类器?

Dbwd_Imgtec 来源:未知 作者:李倩 2018-08-22 14:47 次阅读

一、roc曲线

1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。

横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)

纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率)

2、针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况.

(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)

(2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN)

(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)

(4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)

TP:正确的肯定数目

FN:漏报,没有找到正确匹配的数目

FP:误报,没有的匹配不正确

TN:正确拒绝的非匹配数目

列联表如下,1代表正类,0代表负类:

由上表可得出横,纵轴的计算公式:

(1)真正类率(True Postive Rate)TPR:TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity

(2)负正类率(False Postive Rate)FPR:FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。1-Specificity

(3)真负类率(True Negative Rate)TNR: TN/(FP+TN),代表分类器预测的负类中实际负实例占所有负实例的比例,TNR=1-FPR。Specificity

假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

如下面这幅图,(a)图中实线为ROC曲线,线上每个点对应一个阈值。

横轴FPR:1-TNR,1-Specificity,FPR越大,预测正类中实际负类越多。

纵轴TPR:Sensitivity(正类覆盖率),TPR越大,预测正类中实际正类越多。

理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity越大效果越好。

二、如何画roc曲线

假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。

接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:

AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。

首先AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。

三、为什么使用Roc和Auc评价分类器

既然已经这么多标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。下图是ROC曲线和Presision-Recall曲线的对比:

在上图中,(a)和(c)为Roc曲线,(b)和(d)为Precision-Recall曲线。

(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果,可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线变化较大。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 分类器
    +关注

    关注

    0

    文章

    152

    浏览量

    13103
  • 机器学习
    +关注

    关注

    66

    文章

    8062

    浏览量

    130442
  • 数据集
    +关注

    关注

    4

    文章

    1174

    浏览量

    24289

原文标题:机器学习之分类器性能指标之ROC曲线、AUC值

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    [3.6.1]--6.ROCAUC曲线

    机器学习大数据
    jf_60701476
    发布于 :2022年12月05日 12:00:16

    ROC-RK3399-PC超小型mini主机

    `ROC-RK3399-PC采用Rockchip高性能核心配置,独有的多种供电方式,以及独特的板型设计,可接入扩展板,性能更强悍优异,组合金属外壳,便成了口袋便携式个人电脑。大小核架构,内置强芯采用
    发表于 09-04 14:52

    ROC-RK3308-CC开发实例总结

    ROC-RK3308-CC开发实例总结--GPRS模块调试
    发表于 01-15 07:27

    ROC曲线AUC值有何关系

    什么是ROC曲线ROC曲线有何功能?ROC曲线AUC
    发表于 08-23 06:59

    docker在ROC-RK3308-CC上运行的方法是什么?

    docker在ROC-RK3308-CC上运行的方法是什么?如何运行hello-world?
    发表于 03-09 07:54

    LSI推出6Gb/s SAS RoC芯片

    LSI推出6Gb/s SAS RoC芯片 LSI 公司 宣布向 OEM 客户提供 LSISAS2208 双核 6Gb/s SAS 片上 RAID (RoC) IC 样片。高性能 LSI SAS RoC 旨在支持 PCI-SIG
    发表于 12-19 09:25 637次阅读

    MATLAB的ROC曲线绘制比较研究

    基于非计算机专业人员的计算机应用能力稍差,而又要经常使用受试者工作特征(ROC曲线作为判断的评价方法,介绍了ROC曲线的概念、原理和优点,
    发表于 01-17 15:44 35次下载

    ROC RK3399 PC Pro尺寸图

    电子发烧友网站提供《ROC RK3399 PC Pro尺寸图.dwg》资料免费下载
    发表于 09-20 15:48 1次下载
    <b class='flag-5'>ROC</b> RK3399 PC Pro尺寸图

    ROC RK3566 PC固件Buildroot

    电子发烧友网站提供《ROC RK3566 PC固件Buildroot.txt》资料免费下载
    发表于 09-21 14:55 4次下载
    <b class='flag-5'>ROC</b> RK3566 PC固件Buildroot

    ROC RK3566 PC固件Debian

    电子发烧友网站提供《ROC RK3566 PC固件Debian.txt》资料免费下载
    发表于 09-21 14:54 8次下载
    <b class='flag-5'>ROC</b> RK3566 PC固件Debian

    ROC RK3566 PC固件OpenWRT

    电子发烧友网站提供《ROC RK3566 PC固件OpenWRT.txt》资料免费下载
    发表于 09-21 14:51 18次下载
    <b class='flag-5'>ROC</b> RK3566 PC固件OpenWRT

    ROC 3566 PC V12图分享

    电子发烧友网站提供《ROC 3566 PC V12图分享.pdf》资料免费下载
    发表于 09-21 14:45 1次下载
    <b class='flag-5'>ROC</b> 3566 PC V12图分享

    为什么使用ROC曲线

    对于样本数据,我们使用分类器对其进行分类分类器会给出每个数据为正例的概率。我们可以针对此来设定一个阈值,当某个样本被预测为正例的概率大于这个阈值时,认为该样本为正例,小于则为负例。
    的头像 发表于 12-15 15:34 849次阅读

    面积曲线AUC(area under curve)

    首先介绍 ROCROC 分析是从医疗分析领域引入了一种新的分类模型 performance 评判方法。
    的头像 发表于 01-12 10:36 1007次阅读
    面积<b class='flag-5'>曲线</b><b class='flag-5'>AUC</b>(area under curve)

    支持向量机(系统识别的性能度量之ROC曲线

    ROC曲线的英文名称为Receiver Operating Characteristic Curve,中文译为受试者工作特征曲线
    的头像 发表于 06-26 16:12 658次阅读
    支持向量机(系统识别的性能度量之<b class='flag-5'>ROC</b><b class='flag-5'>曲线</b>)