建模常用的pandas语句

简介: pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句

  pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

  额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。

  1.导入pandas和numpy模块

  import pandas as pd

  import numpy as np

  import os

  2.查看并更改工作路径

  pwd

  os.chdir('更改的路径')

  3.读入数据集

  df=pd.read_csv(r'文件路径')

  4.查看列数、行数

  print(df1.columns.size,df.iloc[:,0].size)

  5.查看列名

  df.columns.tolist()

  6.查看每个特征的类型

  for col in fk_df.columns:print(col,fk_df[col].dtype)

  7.计算坏账率

  badRate=df['target'].sum()/df['target'].count()

  8.计算特征空值率

  null_rate=1-df.count()/df.shape[0]

  9.保留空值率小于0.2的特征

  cols=null_rate[null_rate<0.2].index.tolist()

  10.查找数据集数值中型特征小于0的值并置为nan

  def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

  11.设置新的索引

  df=df.reindex()

  12.检查常量特征

  df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

  13.查看是否有重复特征

  len(set(list(df1.columns)))==df1.shape[1]

  14.查看特征类别数

  df1['education'].value_counts()

相关文章
|
SQL Python
Pandas与SQL的数据操作语句对照
Pandas与SQL的数据操作语句对照
120 0
Pandas与SQL的数据操作语句对照
|
1月前
|
SQL 数据采集 数据可视化
使用Python Pandas实现两表对应列相加(即使表头不同)
使用Python Pandas实现两表对应列相加(即使表头不同)
45 3
|
3天前
|
Python
在Python的pandas库中,向DataFrame添加新列简单易行
【6月更文挑战第15天】在Python的pandas库中,向DataFrame添加新列简单易行。可通过直接赋值、使用Series或apply方法实现。例如,直接赋值可将列表或Series对象分配给新列;使用Series可基于现有列计算生成新列;apply方法则允许应用自定义函数到每一行或列来创建新列。
34 8
|
6天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【6月更文挑战第12天】在数字时代,Python因其强大的数据处理能力和易用性成为数据分析首选工具。结合Pandas(用于高效数据处理)和Matplotlib(用于数据可视化),能助你成为数据分析专家。Python处理数据预处理、分析和可视化,Pandas的DataFrame简化表格数据操作,Matplotlib则提供丰富图表展示数据。掌握这三个库,数据分析之路将更加畅通无阻。
|
8天前
|
存储 数据挖掘 数据处理
【python源码解析】深入 Pandas BlockManager 的数据结构和初始化过程
【python源码解析】深入 Pandas BlockManager 的数据结构和初始化过程
|
13天前
|
存储 数据挖掘 数据处理
19. Python 数据处理之 Pandas
19. Python 数据处理之 Pandas
24 1
|
14天前
|
数据采集 安全 数据处理
Python采集数据处理:利用Pandas进行组排序和筛选
使用Python的Pandas库,结合亿牛云代理和多线程技术,提升网络爬虫数据处理效率。通过代理IP避免封锁,多线程并发采集,示例代码展示数据分组、排序、筛选及代理IP配置和线程管理。
Python采集数据处理:利用Pandas进行组排序和筛选
|
16天前
|
Python 数据挖掘 数据可视化
Python数据分析——Pandas与Jupyter Notebook
【6月更文挑战第1天】 本文探讨了如何使用Python的Pandas库和Jupyter Notebook进行数据分析。首先,介绍了安装和设置步骤,然后展示了如何使用Pandas的DataFrame进行数据加载、清洗和基本分析。接着,通过Jupyter Notebook的交互式环境,演示了数据分析和可视化,包括直方图的创建。文章还涉及数据清洗,如处理缺失值,并展示了如何进行高级数据分析,如数据分组和聚合。此外,还提供了将分析结果导出到文件的方法。通过销售数据的完整案例,详细说明了从加载数据到可视化和结果导出的全过程。最后,讨论了进一步的分析和可视化技巧,如销售额趋势、产品销售排名和区域分布,以及
38 2
|
20天前
|
数据采集 SQL 数据处理
Python中的Pandas库:数据处理与分析的利器
Python中的Pandas库:数据处理与分析的利器
31 0
|
21天前
|
数据采集 数据挖掘 数据处理
Python数据分析实战:使用Pandas处理Excel文件
Python数据分析实战:使用Pandas处理Excel文件
96 0