【Python】数据分析:pandas

简介: 【Python】数据分析:pandas

1. pandas简介

1-1 为什么要学习?

numpy已经能够帮助我们处理数据,能够结合matpolotlib解决我们数据分析的问题,那么pandas学习的目的在什么地方呢?

numpy能够帮我们处理处理数值型数据,但是这还不够很多时候,数据除了数值之外,还有字符串,还有时间序列等

比如:我们通过爬虫获取到了存储在数据库中的数据比如:之前voutube的例子中除了数值之外还有国家的信息,视频的分类(tag)信息,标题信息等

所以,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据,如字典等

1-2 什么是pandas?

pandas is an open source, BSD-licensed library providing high-performance, easy-to-use datastructures and data analysis tools for the Python programming language.

2- pandas的常用数据类型

  1. Series 一维,带标签数组
  2. DataFrame 二维,Series容器
    {   "src": "",   "status": "error",   "percent": 0,   "align": "left",   "linkTarget": "_blank",   "display": "inline",   "message": "图片不支持拷贝复制,请单独复制上传",   "size": 0 }SE}78X03J$~I~IJ4]CY3M81.png
    image.png

    2-1 创建pandas以为数组并指定标签

import string
import pandas as pd
import numpy as np
# 自动创建索引
t1 = pd.Series([1,3,6,14,65])
print(t1)
print(type(t1))
# 通过index指定索引
t2 = pd.Series(np.arange(10),index=list(string.ascii_uppercase[0:10]))
print(t2)
# 通过字符串创建索引
t3 = pd.Series([1,3,5,2,67],index=list("abcde"))
print(t3)
# 创建对象索引
dict={
    "dream":"be a excellent person",
    "goal":"to be a knowledgable teacher in university",
    "age":21
}
t4 = pd.Series(dict)
print(t4)

84E)@A@FM1$BF1]QZL}CGK5.png

result.png

重新给其指定其他的索引之后,如果能够对应上,就取其值,如果不能,就为Nan,这个的意思就是说:个人有10种水果,你要了苹果,香蕉,菠萝,他有苹果,香蕉,但是没有菠萝,这个时候菠萝就是nan

import string
import pandas as pd
a = {string.ascii_uppercase[i]:i for i in range(10)}
print(a)
b = pd.Series(a,index=list(string.ascii_uppercase[5:15]))
print(b)

VBO~H7Y6)_[U@V[(F82XBX9.png

result.png

3. pandas的索引和切片

MS4`{B6V3G0(K]6EX3N$08Q.png

image.png

for i in b.index:
    # 获取索引的值
    print(i)
# 获取长度
print(len(b.index))

L2D8L7C86$I8M8SI@G3~9K9.png

目录
相关文章
|
4天前
|
数据挖掘 数据处理 索引
python常用pandas函数nlargest / nsmallest及其手动实现
python常用pandas函数nlargest / nsmallest及其手动实现
20 0
|
6天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
18 2
|
7天前
|
索引 Python
如何在Python中使用Pandas库进行季节性调整?
在Python中使用Pandas和Statsmodels进行季节性调整的步骤包括:导入pandas和seasonal_decompose模块,准备时间序列DataFrame,调用`seasonal_decompose()`函数分解数据为趋势、季节性和残差,可选地绘制图表分析,以及根据需求去除季节性影响(如将原始数据减去季节性成分)。这是对时间序列数据进行季节性分析的基础流程。
19 2
|
3天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
|
5天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
12 0
|
7天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行或列;3) `fillna()`用常数、前后值填充;4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。
40 9
|
9天前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
使用Pandas在Python中创建数据透视表的步骤包括:安装Pandas库,导入它,创建或读取数据(如DataFrame),使用`pd.pivot_table()`指定数据框、行索引、列索引和值,计算聚合函数(如平均分),并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。
10 2
|
9天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
10天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
13 1
|
10天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
15 1