建模常用的pandas语句

简介: pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句

  pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

  额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。

  1.导入pandas和numpy模块

  import pandas as pd

  import numpy as np

  import os

  2.查看并更改工作路径

  pwd

  os.chdir('更改的路径')

  3.读入数据集

  df=pd.read_csv(r'文件路径')

  4.查看列数、行数

  print(df1.columns.size,df.iloc[:,0].size)

  5.查看列名

  df.columns.tolist()

  6.查看每个特征的类型

  for col in fk_df.columns:print(col,fk_df[col].dtype)

  7.计算坏账率

  badRate=df['target'].sum()/df['target'].count()

  8.计算特征空值率

  null_rate=1-df.count()/df.shape[0]

  9.保留空值率小于0.2的特征

  cols=null_rate[null_rate<0.2].index.tolist()

  10.查找数据集数值中型特征小于0的值并置为nan

  def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

  11.设置新的索引

  df=df.reindex()

  12.检查常量特征

  df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

  13.查看是否有重复特征

  len(set(list(df1.columns)))==df1.shape[1]

  14.查看特征类别数

  df1['education'].value_counts()

相关文章
|
SQL Python
Pandas与SQL的数据操作语句对照
Pandas与SQL的数据操作语句对照
160 0
Pandas与SQL的数据操作语句对照
|
2月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
55 0
|
4月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
77 1
|
4月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
339 0
|
27天前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
49 3
|
27天前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
32 1
|
2月前
|
机器学习/深度学习 数据采集 监控
Pandas与Matplotlib:Python中的动态数据可视化
Pandas与Matplotlib:Python中的动态数据可视化
|
2月前
|
Python
Python:Pandas实现批量删除Excel中的sheet
Python:Pandas实现批量删除Excel中的sheet
92 0
|
3月前
【Pandas+Python】初始化一个全零的Dataframe
初始化一个100*3的0矩阵,变为Dataframe类型,并为每列赋值一个属性。
36 2
|
3月前
|
存储 数据可视化 前端开发
7个Pandas&Jupyter特殊技巧,让Python数据分析更轻松
7个Pandas&Jupyter特殊技巧,让Python数据分析更轻松