【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】

简介: 【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】

一、设计要求

要求完成以下功能:

1.能够导入包,能够读取数据集文件audit_risk和customer上运用决策树算法进行分类预测。

2.能够将指定的信息从文件中删除。

3.能够可视化数据并将结果显示在屏幕上。

4.能够数据预处理。

5.能够数据划分、模型训练、效果评估。

6.能够进行预测病显示预测结果。


👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


二、设计思路

1.导入所需的库和读取数据

首先,导入需要使用的Python库,包括pandas、numpy、scikit-learn、matplotlib和seaborn。接着,使用pandas读取客户信息数据集(customer.csv)和审计风险数据集(audit_risk.csv),并将其加载到数据框中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   import pandas as pd
   import numpy as np
   from sklearn.model_selection import train_test_split
   from sklearn.tree import DecisionTreeClassifier
   from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
   import matplotlib.pyplot as plt
   import seaborn as sns
   customer_df = pd.read_csv('customer.csv')
   audit_risk_df = pd.read_csv('audit_risk.csv')


数据预处理

数据预处理是数据分析和机器学习中非常关键的一步。首先,检查数据集中是否存在缺失值,并使用前向填充法填充缺失值,以保证数据的完整性。接着,将客户数据中的婚姻状况和性别字段转换为数值型,以便模型能够正确处理这些分类变量。最后,确保审计风险数据集中所有特征均为数值类型,填充转换后的缺失值。

   # 检查缺失值
   print("客户数据缺失值:\n", customer_df.isnull().sum())
   print("审计风险数据缺失值:\n", audit_risk_df.isnull().sum())
   # 填充缺失值()
   customer_df.fillna(method='ffill', inplace=True)
   # 将分类变量转换为数值变量
   customer_df['marital_status'] = customer_df['marital_status'].map({'M': 1, 'S': 0})
   # 确保所有数据都是数值类型
   for column in audit_risk_df.columns:
       # 略。。。。 略。。。。
       # 略。。。。 略。。。。
       # 略。。。。 略。。。。
       # 略。。。。 略。。。。
   # 填充转换后的缺失值
   audit_risk_df.fillna(method='ffill', inplace=True)

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


3.数据划分和模型训练

将审计风险数据集分为特征和标签两部分。特征包括除“Risk”外的所有列,标签为“Risk”列。然后,将数据集划分为训练集和测试集,以70%的数据作为训练集,30%的数据作为测试集。使用决策树分类算法对训练集数据进行模型训练。

   # 选择特征和标签
   features = audit_risk_df.drop(columns=['Risk'])
   labels = audit_risk_df['Risk']
   # 数据划分
   X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)
   # 构建决策树模型
   # 略。。。。 略。。。。
   # 预测
   y_pred = clf.predict(X_test)

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


  1. 效果评估
    使用测试集数据对训练好的模型进行预测,并生成混淆矩阵、分类报告和准确率等评估指标。通过这些评估指标,可以了解模型的预测效果和性能。
   # 显示评估结果
   print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))
   print("分类报告:\n", classification_report(y_test, y_pred))
   print("准确率:", accuracy_score(y_test, y_pred))

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


三、模型预测

对数据和模型结果进行可视化展示,包括特征重要性图、混淆矩阵热图和审计风险总数分布图。这些图表可以帮助我们更直观地了解数据和模型的表现。

   # 绘制特征重要性
   plt.figure(figsize=(12, 8))
   feature_importances = pd.Series(clf.feature_importances_, index=features.columns)
   feature_importances.nlargest(10).plot(kind='barh')
   plt.title('特征重要性')
   plt.show()

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   # 绘制混淆矩阵
   plt.figure(figsize=(8, 6))
   conf_matrix = confusion_matrix(y_test, y_pred)
   sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
   plt.title('混淆矩阵')
   plt.xlabel('预测值')
   plt.ylabel('实际值')
   plt.show()

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


绘制审计风险总数的分布


根据用户指定的条件删除数据中的特定记录,并保存修改后的数据。以下示例代码删除年收入在$10K以下的客户,并将修改后的数据保存到新的文件中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   # 删除指定信息
   def delete_info(df, condition):
       return df.drop(df[condition].index)

   # 删除年收入在$10K以下的客户
   customer_df = delete_info(customer_df, customer_df['yearly_income'] == '$10K - $30K')
   # 略。。。。 略。。。。
  
   # 保存修改后的数据
   customer_df.to_csv('customer_modified.csv', index=False)


预测新数据

对新数据进行预测,并展示预测结果。以下代码使用测试集的前五行数据作为新数据示例,进行预测并展示预测结果。预测结果被保存到文件中,以便用户查看和分析。

   # 进行预测并显示预测结果
   new_data = X_test.iloc[:5]  # 这里使用测试集的前5行数据作为新数据示例
   predictions = clf.predict(new_data)
   print("新数据的预测结果:\n", predictions)

   # 将结果保存到文件
   result_df = pd.DataFrame(new_data)
   result_df['Prediction'] = predictions
   # 略。。。。 略。。。。


👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

相关文章
|
2月前
|
JSON 开发工具 git
基于Python和pygame的植物大战僵尸游戏设计源码
本项目是基于Python和pygame开发的植物大战僵尸游戏,包含125个文件,如PNG图像、Python源码等,提供丰富的游戏开发学习素材。游戏设计源码可从提供的链接下载。关键词:Python游戏开发、pygame、植物大战僵尸、源码分享。
|
3月前
|
数据采集 前端开发 Python
Python pygame 实现游戏 彩色 五子棋 详细注释 附源码 单机版
Python pygame 实现游戏 彩色 五子棋 详细注释 附源码 单机版
97 0
|
机器学习/深度学习 算法 Python
【Python数据科学手册】专题:决策树与随机森林
本文将介绍一种强大的算法——无参数算法随机森林。随机森林是一种集成方法,通过集成多个比较简单的评估器形成累积效果。这种集成方法的学习效果经常出人意料,往往能超过各个组成部分的总和;也就是说,若干评估器的多数投票(majority vote)的最终效果往往优于单个评估器投票的效果!
849 0
|
机器学习/深度学习 Python
Python 数据科学手册 5.8 决策树和随机森林
5.8 决策树和随机森林 原文:In-Depth: Decision Trees and Random Forests 译者:飞龙 协议:CC BY-NC-SA 4.0 译文没有得到原作者授权,不保证与原文的意思严格一致。
1304 0
|
29天前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
28天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
16天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
102 80
|
2月前
|
存储 索引 Python
Python编程数据结构的深入理解
深入理解 Python 中的数据结构是提高编程能力的重要途径。通过合理选择和使用数据结构,可以提高程序的效率和质量
150 59
|
5天前
|
Python
[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int
本文介绍了Python编程中容易出现的问题,特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数(如`print`、`int`、`max`)或模块名(如`os`)重新赋值为其他类型后,会导致原有功能失效。例如,将`print`赋值为整数后,无法再用其输出内容;将`int`赋值为整数后,无法再进行类型转换。重新赋值后,这些名称失去了原有的功能,可能导致程序错误。总结指出,已有的函数名、类名和模块名不适合覆盖赋新值,否则会失去原有功能。如果需要使用类似的变量名,建议采用其他命名方式以避免冲突。
27 14
|
15天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
51 2