【Python】数据分析:pandas基础

简介: 【Python】数据分析:pandas基础

Dataframe是一个二维的,因此既有行索引,又有列索引

import pandas as pd
import numpy as np
pd.Dataframe(np.arange(12).reshape(3,4))

}L~80PGY5XW@LQ}5UQ8@_{X.png

image.png


疑问:除了0,1,2这种索引,能不能传其他索引进行指定?

可以的,通过index指定行索引,通过columns指定列索引

pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('efgh'))

R13YUJ1DQ_2VZ23JAMNFI{4.png

image.png

DataFrame和Series的关系?

Dataframe可以看做是 Series容器,存放series数据

如何将字典格式的数据传入DataFrame?

1 - 一个字典,多个数组

pd.DataFrame({"name":['shanjialan','shanjiale'],"age":[19,21]})

AFEU{EW0ZA~2FVZ~R[BZQCD.png

image.png


2 - 多个字典,一个数组

pd.DataFrame([{"name":'sjl',"age":21},{"name":'syh',"age":23}])

[3{_C9]D$~S6`DZGHZ2OQ%6.png

image.png


配合数据库使用pandas

import pandas as pd
from pymongo import MongoClient
client = MongoClient()
collection = client['douban']['tv1']
data = list(collection.find())
pf = pd.DataFrame(data)
print(pf)

2-DataFrame的基础属性

df.shape # 显示行数列数

df.dtypes # 显示列数据类型

df.ndim # 数据维度

df.index # 行索引

df.columns # 列索引

df.values # 对象值,二维ndarray数组

3-DataFrame整体情况查询

df.head(n) # 显示前n行的数据

df.tail(n) # 显示倒数n行的数据

df.info() # 显示相关信息概述:行数、列数、列非空个数、列类型、内容等

df.describe() # 快速综合统计结果:计数、均值、标准差、最大值、最小值、四分位数等

import pandas as pd
import numpy as np
df = pd.read_csv('./doubantop250.csv',sep=',', header=None,encoding='unicode_escape')
# 取前3行
print(df.head(3))
# 取后3行
print(df.tail(3))
# dataframe的相关信息
print(df.info())
# 描述
print(df.describe())
# 排序
df1 = df.sort_values(by=2)
print(df1)
# 取行和取列同时操作
print(df[:6][2])
# loc通过标签进行取行或者取列
# loc[index_name,col_name]
# 通过x,y的索引进行取数据的操作
# iloc[index_x,index_y]
df2 = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("DEFG"))
print(df2)
print(df2.loc["a","D"])
print(df2.iloc[0,1])
# 取列数据
print(df2.loc["a"])
print(df2.loc["a",:])
print(df2.iloc[2,3])
# 多行多列
print(df2.loc[["a","b"],["D","G"]])
print(df2.iloc[:2,[1,2]])
目录
打赏
0
0
0
0
19
分享
相关文章
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
本文将介绍 10 个在数据处理中至关重要的 Pandas 技术模式。这些模式能够显著减少调试时间,提升代码的可维护性,并构建更加清晰的数据处理流水线。
57 3
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
44 0
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
255 71
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
使用Python进行数据分析的入门指南
【10月更文挑战第42天】本文是一篇技术性文章,旨在为初学者提供一份关于如何使用Python进行数据分析的入门指南。我们将从安装必要的工具开始,然后逐步介绍如何导入数据、处理数据、进行数据可视化以及建立预测模型。本文的目标是帮助读者理解数据分析的基本步骤和方法,并通过实际的代码示例来加深理解。
172 3
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
316 73
|
5月前
|
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
70 3
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
196 22
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
本书介绍了如何将Python与Excel结合使用,以提升数据分析和处理效率。内容涵盖Python入门、pandas库的使用、通过Python包操作Excel文件以及使用xlwings对Excel进行编程。书中详细讲解了Anaconda、Visual Studio Code和Jupyter笔记本等开发工具,并探讨了NumPy、DataFrame和Series等数据结构的应用。此外,还介绍了多个Python包(如OpenPyXL、XlsxWriter等)用于在无需安装Excel的情况下读写Excel文件,帮助用户实现自动化任务和数据处理。

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问