PR曲线和ROC曲线间的关系

2021年09月15日 阅读数:4
这篇文章主要向大家介绍PR曲线和ROC曲线间的关系,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

The Relationship Between Precision-Recall and ROC Curves

http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdfhtml

An introduction to ROC analysis 

https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdfpython

 

Receiver Operator Characteristic (ROC) curves are commonly used to present results for binary decision problems in machine learning. However, when dealing with highly skewed datasets, Precision-Recall
(PR) curves give a more informative picture of an algorithm’s performance. We show that a deep connection exists between ROC space and PR space, such that a curve dominates in ROC space if and only if it dominates in PR space. A corollary is the notion of an achievable PR curve, which has properties much like the convex hull in ROC space; we show an efficient algorithm for computing this curve. Finally, we also note differences in the two types of curves are significant for algorithm design. For example, in PR space it is incorrect to linearly interpolate between points. Furthermore, algorithms that optimize the area under the ROC curve are not guaranteed to optimize the area under the PR curve.算法

受试工做者特性曲线 (ROC) 一般用于呈现机器学习中二元决策问题的结果。 然而,在处理高度倾斜(不平衡)的数据集时,Precision-Recall (PR) 曲线给出了算法性能的更多信息。咱们证实了 ROC 空间和 PR 空间之间存在深层联系,一条曲线在 ROC 空间中占主导地位当且仅当它在 PR 空间中占主导地位。推论是可实现 PR 曲线的概念,它具备与 ROC 空间中的凸包很是类似的特性; 咱们展现了一种计算这条曲线的有效算法。 最后,咱们还注意到两种曲线的差别对于算法设计很重要。 例如,在 PR 空间中,在点之间进行线性插值是不正确的。 此外,优化 ROC 曲线下面积的算法并不能保证 PR 曲线下面积也获得优化。dom

 

 

使用场景

  1. ROC曲线因为兼顾正例与负例,因此适用于评估分类器的总体性能,相比而言PR曲线彻底聚焦于正例。机器学习

  2. 若是有多份数据且存在不一样的类别分布,好比信用卡欺诈问题中每月正例和负例的比例可能都不相同,这时候若是只想单纯地比较分类器的性能且剔除类别分布改变的影响,则ROC曲线比较适合,由于类别分布改变可能使得PR曲线发生变化时好时坏,这种时候难以进行模型比较;反之,若是想测试不一样类别分布下对分类器的性能的影响,则PR曲线比较适合。性能

  3. 若是想要评估在相同的类别分布下正例的预测状况,则宜选PR曲线。学习

  4. 类别不平衡问题中,ROC曲线一般会给出一个乐观的效果估计,因此大部分时候仍是PR曲线更好。测试

  5. 最后能够根据具体的应用,在曲线上找到最优的点,获得相对应的precision,recall,f1 score等指标,去调整模型的阈值,从而获得一个符合具体应用的模型。优化

 

 

机器学习之类别不平衡问题 (1) —— 各类评估指标

机器学习之类别不平衡问题 (2) —— ROC和PR曲线

机器学习之类别不平衡问题 (3) —— 采样方法

https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/this

 

Reference:

  1. Tom Fawcett. An introduction to ROC analysis
  2. Jesse Davis, Mark Goadrich0 The Relationship Between Precision-Recall and ROC Curves
  3. Haibo He, Edwardo A. Garcia. Learning from Imbalanced Data
  4. 周志华. 《机器学习》
  5. Pang-Ning Tan, etc. Introduction to Data Mining
  6. https://stats.stackexchange.com/questions/7207/roc-vs-precision-and-recall-curves

 

下一篇: Task异常