机器学习入门之PR曲线画法

简介: 机器学习过程中一直没搞明白PR曲线老师说的“对预测结果进行排序,排在最前面的是模型认为最可能为正例的样本,排在最后的是模型认为最不可能为正例的样本,按此顺序逐个把样本作为正例进行预测,每次都可以得出查准率和查全率”,通过查询和看别人示例终于明白了,这其实是一个预测过程,将每个实例预测结果作为阈值对所有样本进行预测计算查准率和查全率。

说明:

  • 一直没搞明白PR曲线老师说的“对预测结果进行排序,排在最前面的是模型认为最可能为正例的样本,排在最后的是模型认为最不可能为正例的样本,按此顺序逐个把样本作为正例进行预测,每次都可以得出查准率和查全率”,通过查询和看别人示例终于明白了,这其实是一个预测过程,将每个实例预测结果作为阈值对所有样本进行预测计算查准率和查全率。
  • PR曲线是由模型的查准率和查全率为坐标轴形成的曲线,查准率P为纵坐标 查全率R为横坐标
  • P 查准率:在二分类问题中所有预测为正向的样本中真正为正向样本的比例 P=TP/(TP+FP)
  • R 查全率:在二分类问题中所有正向样本中被正确预测的样本的比例 R=TP/(TP+FN)
  • TP:真正例 FP:假正例 TN:真反例 FN:假反例
  • 用于生成PR曲线的数据为随机数据,不能代表真正模型预测评估,只用于完成PR曲线
导入包
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
产生测试数据
  • 数据随机产生,仅用于演示效果
# 产生两组 0到1之间的随机数

# 演示数据1
rand_1 = list(np.random.random(20))

# 生成标签和预测概率数据
test_1 = []
for i in range(20):
    label = "P" if i < 10 else "N"
    test_1.append({"value": rand_1[i], "label": label})

# 对概率进行排序
rand_1.sort(reverse=True)

# 演示数据2
rand_2 = list(np.random.random(20))

# 生成标签和预测概率数据
test_2 = []
for i in range(20):
    label = "P" if i < 10 else "N"
    test_2.append({"value": rand_2[i], "label": label})

# 对概率进行排序
rand_2.sort(reverse=True)
计算PR值
# 计算PR值
# values 模型预测的所有样本为正的概率列表
# data 模型预测的数据与样本自身正确标签

def get_pr(values=[], datas=[]):
    
    pr = []
    
    for value in values:
        counts = {"TP": 0, "FP": 0, "TN": 0, "FN": 0}
        for data in datas:
            predict_label = "P" if data["value"] >= value else "N"
            if predict_label == "P" and data["label"] == "P":
                counts["TP"] += 1
            elif predict_label == "P" and data["label"] == "N":
                counts["FP"] += 1
            elif predict_label == "N" and data["label"] == "N":
                counts["TN"] += 1
            elif predict_label == "N" and data["label"] == "P":
                counts["FN"] += 1
        # 计算查准率
        p = round(counts["TP"]/(counts["TP"]+counts["FP"]), 2)

        # 计算查全率
        r = round(counts["TP"]/(counts["TP"]+counts["FN"]), 2)
        pr.append({"p": p, "r": r})
    
    return pr
组合数据 用于绘制图表
pr_1 = get_pr(rand_1, test_1)
pr_2 = get_pr(rand_2, test_2)

# 生成展示数据
data_show = []
for pr in pr_1:
    data_show.append({'p': pr['p'], 'r': pr['r'], 'model': 'model_1'})
    
for pr in pr_2:
    data_show.append({'p': pr['p'], 'r': pr['r'], 'model': 'model_2'})

for pr in range(20):
    value = (1.0/20)*pr
    data_show.append({'p': value, 'r': value, 'model': 'BEP'})
data_show = pd.DataFrame(data_show)
绘制图表
sns.relplot(x="r", y="p", ci=None, hue='model', kind="line", data=data_show);

image.png

目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
深入了解机器学习:从入门到应用
【10月更文挑战第6天】深入了解机器学习:从入门到应用
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
36 2
|
29天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
32 1
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第12天】本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和入门实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型训练和评估等步骤,并提供了代码示例。通过本文,读者可以掌握机器学习的基本流程,并为深入学习打下坚实基础。
24 1
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型选择与训练、模型评估及交叉验证等关键步骤。通过本文,初学者可以快速上手并掌握机器学习的基本技能。
57 2
|
2月前
|
机器学习/深度学习 人工智能 数据挖掘
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第6天】在人工智能领域,机器学习已成为核心技术。本文指导初学者使用Python与Scikit-learn入门机器学习,涵盖基本概念、环境搭建、数据处理、模型训练及评估等环节。Python因简洁性及其生态系统成为首选语言,而Scikit-learn则提供了丰富工具,简化数据挖掘与分析流程。通过实践示例,帮助读者快速掌握基础知识,为进一步深入研究奠定坚实基础。
29 4
|
2月前
|
机器学习/深度学习 自然语言处理 前端开发
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
488 1
|
2月前
|
机器学习/深度学习 算法 API
机器学习入门(六):分类模型评估方法
机器学习入门(六):分类模型评估方法
|
2月前
|
机器学习/深度学习 算法
机器学习入门(三):K近邻算法原理 | KNN算法原理
机器学习入门(三):K近邻算法原理 | KNN算法原理
|
2月前
|
机器学习/深度学习 算法 数据挖掘
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合