使用python中的库对数据处理时需要用到python中的pandas和numpy

简介: 我们在建模比赛的时候,给了我们数据集并不是完美的数据集,需要我们对表进行处理.以下就是我的一些处理过程
  1. 第一步,将项目所需表头所在的总表读入并赋值,代码如下:
data_info=pd.read_csv('***********.csv(此处输入的是表头总表所在的绝对路径)')
  1. 第二步,将所有表的相关表头信息分开从总表头表中提取出来并分别进行赋值
columns_info=data_info[data_info['文件名'] =='数据表名']['字段英文名']
columns_debit=data_info[data_info['文件名'] =='数据表名']['字段英文名']
columns_credit=data_info[data_info['文件名'] =='数据表名']['字段英文名']
  1. 第三步,将所需要处理的所有dat表进行读入训练集和测试集:
训练集:df_basicinfo=pd.read_table('此处为dat表所在地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
df_debit=pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
df_credit=pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
测试集:test_a_basicinfo=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
test_a_debit=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
test_a_credit=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
  1. 第四步,将表头分别在每张表中进行显示(以列表的形式)
df_basicinfo.columns= (list(columns_info))
df_credit.columns= (list(columns_credit))
df_debit.columns= (list(columns_debit))
test_a_basicinfo.columns= (list(columns_info_notarget))
test_a_credit.columns= (list(columns_credit))
test_a_debit.columns= (list(columns_debit))


注意:

1.删除列的时候为axis=0,删除行的时候axis=1 *.drop(,axis=0)

2.表名.describe()表示是查看表的信息

3.表名.shape表示的是查看表多少行和列 4.aa[‘cust_no’] == 85115,该句表示的是查找该表中值为85115 出现的次数

5.合并表的代码是pd.merge(表一,表二,on=“此处填写的是两张表之间通过哪个字段进行连 接,比如通过id”)

6.查看超过100列的表的所有列信息 m.info(verbose=True,null_counts=True) (m是表,该表大于100列)

具体可以参考本人的博客文章,链接如下:突破自我的王小懒的博客

相关文章
|
5天前
|
网络协议 数据库连接 Python
python知识点100篇系列(17)-替换requests的python库httpx
【10月更文挑战第4天】Requests 是基于 Python 开发的 HTTP 库,使用简单,功能强大。然而,随着 Python 3.6 的发布,出现了 Requests 的替代品 —— httpx。httpx 继承了 Requests 的所有特性,并增加了对异步请求的支持,支持 HTTP/1.1 和 HTTP/2,能够发送同步和异步请求,适用于 WSGI 和 ASGI 应用。安装使用 httpx 需要 Python 3.6 及以上版本,异步请求则需要 Python 3.8 及以上。httpx 提供了 Client 和 AsyncClient,分别用于优化同步和异步请求的性能。
python知识点100篇系列(17)-替换requests的python库httpx
|
6天前
|
Linux Android开发 开发者
【Python】GUI:Kivy库环境安装与示例
这篇文章介绍了 Kivy 库的安装与使用示例。Kivy 是一个开源的 Python 库,支持多平台开发,适用于多点触控应用。文章详细说明了 Kivy 的主要特点、环境安装方法,并提供了两个示例:一个简单的 Hello World 应用和一个 BMI 计算器界面。
13 0
|
11天前
|
PyTorch 测试技术 算法框架/工具
Python中Thop库的常见用法和代码示例
肆十二在B站分享了关于THOP(Torch-OpCounter)的实战教学视频。THOP是一个用于计算PyTorch模型操作数和计算量的工具,帮助开发者评估模型复杂度和性能。本文介绍了THOP的安装、使用方法及基本用例,包括如何计算模型的FLOPs和参数量。
27 0
|
11天前
|
算法 数据可视化 计算机视觉
Python中医学图像处理常用的库
在Python中,医学图像处理常用的库包括:ITK(及其简化版SimpleITK)、3D Slicer、Pydicom、Nibabel、MedPy、OpenCV、Pillow和Scikit-Image。这些库分别擅长图像分割、配准、处理DICOM和NIfTI格式文件、图像增强及基础图像处理等任务。选择合适的库需根据具体需求和项目要求。
22 0
|
11天前
|
SQL 关系型数据库 MySQL
Python中Pymysql库的常见用法和代码示例
`pymysql` 是一个用于连接 MySQL 数据库的 Python 库,支持 SQL 查询的执行和结果处理。通过 `pip install pymysql` 安装后,可使用 `connect()` 方法建立连接,`cursor()` 创建游标执行查询,包括数据的增删改查,并通过 `commit()` 和 `rollback()` 管理事务,最后需关闭游标和连接以释放资源。
28 0
|
29天前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
46 0
|
2月前
|
机器学习/深度学习 数据处理 计算机视觉
NumPy实践宝典:Python高手教你如何轻松玩转数据处理!
【8月更文挑战第22天】NumPy是Python科学计算的核心库,专长于大型数组与矩阵运算,并提供了丰富的数学函数。首先需安装NumPy (`pip install numpy`)。之后可通过创建数组、索引与切片、执行数学与逻辑运算、变换数组形状及类型、计算统计量和进行矩阵运算等操作来实践学习。NumPy的应用范围广泛,从基础的数据处理到图像处理都能胜任,是数据科学领域的必备工具。
50 0
|
1月前
|
机器学习/深度学习 算法 数据可视化
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
特征工程是机器学习流程中的关键步骤,通过将原始数据转换为更具意义的特征,增强模型对数据关系的理解能力。本文重点介绍处理数值变量的高级特征工程技术,包括归一化、多项式特征、FunctionTransformer、KBinsDiscretizer、对数变换、PowerTransformer、QuantileTransformer和PCA,旨在提升模型性能。这些技术能够揭示数据中的潜在模式、优化变量表示,并应对数据分布和内在特性带来的挑战,从而提高模型的稳健性和泛化能力。每种技术都有其独特优势,适用于不同类型的数据和问题。通过实验和验证选择最适合的变换方法至关重要。
38 5
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
|
19天前
|
机器学习/深度学习 并行计算 大数据
【Python篇】NumPy完整指南(上篇):掌握数组、矩阵与高效计算的核心技巧2
【Python篇】NumPy完整指南(上篇):掌握数组、矩阵与高效计算的核心技巧
44 10
|
19天前
|
索引 Python
【Python篇】NumPy完整指南(上篇):掌握数组、矩阵与高效计算的核心技巧1
【Python篇】NumPy完整指南(上篇):掌握数组、矩阵与高效计算的核心技巧
71 4