Python数据分析招式:pandas库提取清洗排序-1

简介: Python数据分析招式:pandas库提取清洗排序-1

要点:


数据的基本处理

数据的提取

数据的初步清洗

数据的排序

泰坦尼克数据集下载地址:

地址1(需要注册): https://www.kaggle.com/c/titanic/data

地址2(百度网盘): https://pan.baidu.com/s/1Vp0QmVLu43_Hb9jHR2FKXg

密码: rdfr


导入数据

# -*- coding: utf-8 -*-
# @File    : 泰坦尼克数据分析.py
# @Date    : 2018-06-03
import numpy as np
import pandas as pd
file = "data/train.csv"
df = pd.DataFrame(pd.read_csv(file))

1、数据的基本处理

#  形状
print(df.shape)
# (891, 12)
# 查看前3行
print(df.head(3))
"""
   PassengerId  Survived  Pclass    ...        Fare Cabin  Embarked
0            1         0       3    ...      7.2500   NaN         S
1            2         1       1    ...     71.2833   C85         C
2            3         1       3    ...      7.9250   NaN         S
[3 rows x 12 columns]
"""
# 查看后3行
print(df.tail(3))
"""
     PassengerId  Survived  Pclass    ...      Fare Cabin  Embarked
888          889         0       3    ...     23.45   NaN         S
889          890         1       1    ...     30.00  C148         C
890          891         0       3    ...      7.75   NaN         Q
[3 rows x 12 columns]
"""
# 信息
print(df.info())
"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB
None
"""
# 整体描述
print(df.describe())
"""
      PassengerId    Survived     ...           Parch        Fare
count   891.000000  891.000000     ...      891.000000  891.000000
mean    446.000000    0.383838     ...        0.381594   32.204208
std     257.353842    0.486592     ...        0.806057   49.693429
min       1.000000    0.000000     ...        0.000000    0.000000
25%     223.500000    0.000000     ...        0.000000    7.910400
50%     446.000000    0.000000     ...        0.000000   14.454200
75%     668.500000    1.000000     ...        0.000000   31.000000
max     891.000000    1.000000     ...        6.000000  512.329200
[8 rows x 7 columns]
"""
# 查看数据集的空值
print(df.isnull().sum())
"""
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
"""
# 唯一值
print(df["Pclass"].unique())
# [3 1 2]

2、数据的提取

# 按照索引的值提取数据
print(df.loc[630])
"""
PassengerId                                     631
Survived                                          1
Pclass                                            1
Name           Barkworth, Mr. Algernon Henry Wilson
Sex                                            male
Age                                              80
SibSp                                             0
Parch                                             0
Ticket                                        27042
Fare                                             30
Cabin                                           A23
Embarked                                          S
Name: 630, dtype: object
"""
# 取部分行和列 第二三四行和前5列
print(df.iloc[2:5, :5])
"""
   PassengerId   ...       Sex
2            3   ...    female
3            4   ...    female
4            5   ...      male
[3 rows x 5 columns]
"""
# 照条件提取  仓位为小于2的,并且性别为女性的数据
print(df[(df["Pclass"]<=2)&(df["Sex"]=="female")].head(3))
"""
   PassengerId  Survived  Pclass    ...        Fare Cabin  Embarked
1            2         1       1    ...     71.2833   C85         C
3            4         1       1    ...     53.1000  C123         S
9           10         1       2    ...     30.0708   NaN         C
[3 rows x 12 columns]
"""

3、数据的清洗

# 删除空值
print(df.shape)  # (891, 12)
ret = df.dropna(how="any")
print(ret.shape)  # (183, 12)
print(df.shape)  # (891, 12)
# 填充空值
ret = df.fillna(value=0)
print(df.loc[633])
print(ret.loc[633])
"""
PassengerId                              634
Survived                                   0
Pclass                                     1
Name           Parr, Mr. William Henry Marsh
Sex                                     male
Age                                      NaN
SibSp                                      0
Parch                                      0
Ticket                                112052
Fare                                       0
Cabin                                    NaN
Embarked                                   S
Name: 633, dtype: object
PassengerId                              634
Survived                                   0
Pclass                                     1
Name           Parr, Mr. William Henry Marsh
Sex                                     male
Age                                        0
SibSp                                      0
Parch                                      0
Ticket                                112052
Fare                                       0
Cabin                                      0
Embarked                                   S
Name: 633, dtype: object
"""
#用数据集里面的年龄均值来填充空值
ret = df['Age'].fillna(df['Age'].mean())
print(ret.shape)  # (891,)
# 对字符的处理,比如大小写的转换
print(df["Name"].map(str.upper).head(3))
"""
0                              BRAUND, MR. OWEN HARRIS
1    CUMINGS, MRS. JOHN BRADLEY (FLORENCE BRIGGS TH...
2                               HEIKKINEN, MISS. LAINA
Name: Name, dtype: object
"""
# 对字符串的快速映射转换
df['Pclass']=df['Pclass'].map({1:'一等舱',2:'二等舱',3:'三等舱'})
print(df.head(3))
"""
   PassengerId  Survived Pclass    ...        Fare Cabin  Embarked
0            1         0    三等舱    ...      7.2500   NaN         S
1            2         1    一等舱    ...     71.2833   C85         C
2            3         1    三等舱    ...      7.9250   NaN         S
[3 rows x 12 columns]
"""
# 对数据集中的数据格式的改变
print(df.dtypes)
"""
PassengerId      int64
Survived         int64
Pclass          object
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object
"""
ret = df['Fare'].astype('int') #把原来的float64->int
print(ret.dtypes) # int32
# 更改列的名字
ret = df.rename(columns={'Survived':'是否获救'})
print(ret.head(3))
"""
   PassengerId  是否获救 Pclass    ...        Fare Cabin  Embarked
0            1     0    三等舱    ...      7.2500   NaN         S
1            2     1    一等舱    ...     71.2833   C85         C
2            3     1    三等舱    ...      7.9250   NaN         S
[3 rows x 12 columns]
"""
# 去掉重复值
# #比如我们想知道登船的类别,去掉所有重复的数据
ret = df['Embarked'].drop_duplicates()
print(ret)
"""
0       S
1       C
5       Q
61    NaN
Name: Embarked, dtype: object
"""
# 数据的代替,替换
df['Sex']=df['Sex'].replace('male','男')
print(df["Sex"].head(3))
"""
0         男
1    female
2    female
Name: Sex, dtype: object
"""

4、数据的排序

# 按照年龄进行降序排列
print(df.sort_values(by=['Age'],ascending=False)["Age"].head(3))
"""
630    80.0
851    74.0
493    71.0
Name: Age, dtype: float64
"""
# 按照index来排序
print(df.sort_index(ascending=False).head(3))
"""
     PassengerId  Survived Pclass    ...      Fare Cabin  Embarked
890          891         0    三等舱    ...      7.75   NaN         Q
889          890         1    一等舱    ...     30.00  C148         C
888          889         0    三等舱    ...     23.45   NaN         S
"""

相关文章
|
17天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
48 0
|
12天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
28 2
|
11天前
|
搜索推荐 Python
快速排序的 Python 实践:从原理到优化,打造你的排序利器!
本文介绍了 Python 中的快速排序算法,从基本原理、实现代码到优化方法进行了详细探讨。快速排序采用分治策略,通过选择基准元素将数组分为两部分,递归排序。文章还对比了快速排序与冒泡排序的性能,展示了优化前后快速排序的差异。通过这些分析,帮助读者理解快速排序的优势及优化的重要性,从而在实际应用中选择合适的排序算法和优化策略,提升程序性能。
26 1
|
9天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
9天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
11天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
12天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第33天】本文将介绍如何使用Python编程语言进行数据分析和可视化。我们将从数据清洗开始,然后进行数据探索性分析,最后使用matplotlib和seaborn库进行数据可视化。通过阅读本文,你将学会如何运用Python进行数据处理和可视化展示。
|
6天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
6天前
|
机器学习/深度学习 数据挖掘 Python
Python编程入门——从零开始构建你的第一个程序
【10月更文挑战第39天】本文将带你走进Python的世界,通过简单易懂的语言和实际的代码示例,让你快速掌握Python的基础语法。无论你是编程新手还是想学习新语言的老手,这篇文章都能为你提供有价值的信息。我们将从变量、数据类型、控制结构等基本概念入手,逐步过渡到函数、模块等高级特性,最后通过一个综合示例来巩固所学知识。让我们一起开启Python编程之旅吧!
|
6天前
|
存储 Python
Python编程入门:打造你的第一个程序
【10月更文挑战第39天】在数字时代的浪潮中,掌握编程技能如同掌握了一门新时代的语言。本文将引导你步入Python编程的奇妙世界,从零基础出发,一步步构建你的第一个程序。我们将探索编程的基本概念,通过简单示例理解变量、数据类型和控制结构,最终实现一个简单的猜数字游戏。这不仅是一段代码的旅程,更是逻辑思维和问题解决能力的锻炼之旅。准备好了吗?让我们开始吧!