【Python】数据分析:pandas基础

简介: 【Python】数据分析:pandas基础

Dataframe是一个二维的,因此既有行索引,又有列索引

import pandas as pd
import numpy as np
pd.Dataframe(np.arange(12).reshape(3,4))

}L~80PGY5XW@LQ}5UQ8@_{X.png

image.png


疑问:除了0,1,2这种索引,能不能传其他索引进行指定?

可以的,通过index指定行索引,通过columns指定列索引

pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('efgh'))

R13YUJ1DQ_2VZ23JAMNFI{4.png

image.png

DataFrame和Series的关系?

Dataframe可以看做是 Series容器,存放series数据

如何将字典格式的数据传入DataFrame?

1 - 一个字典,多个数组

pd.DataFrame({"name":['shanjialan','shanjiale'],"age":[19,21]})

AFEU{EW0ZA~2FVZ~R[BZQCD.png

image.png


2 - 多个字典,一个数组

pd.DataFrame([{"name":'sjl',"age":21},{"name":'syh',"age":23}])

[3{_C9]D$~S6`DZGHZ2OQ%6.png

image.png


配合数据库使用pandas

import pandas as pd
from pymongo import MongoClient
client = MongoClient()
collection = client['douban']['tv1']
data = list(collection.find())
pf = pd.DataFrame(data)
print(pf)

2-DataFrame的基础属性

df.shape # 显示行数列数

df.dtypes # 显示列数据类型

df.ndim # 数据维度

df.index # 行索引

df.columns # 列索引

df.values # 对象值,二维ndarray数组

3-DataFrame整体情况查询

df.head(n) # 显示前n行的数据

df.tail(n) # 显示倒数n行的数据

df.info() # 显示相关信息概述:行数、列数、列非空个数、列类型、内容等

df.describe() # 快速综合统计结果:计数、均值、标准差、最大值、最小值、四分位数等

import pandas as pd
import numpy as np
df = pd.read_csv('./doubantop250.csv',sep=',', header=None,encoding='unicode_escape')
# 取前3行
print(df.head(3))
# 取后3行
print(df.tail(3))
# dataframe的相关信息
print(df.info())
# 描述
print(df.describe())
# 排序
df1 = df.sort_values(by=2)
print(df1)
# 取行和取列同时操作
print(df[:6][2])
# loc通过标签进行取行或者取列
# loc[index_name,col_name]
# 通过x,y的索引进行取数据的操作
# iloc[index_x,index_y]
df2 = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("DEFG"))
print(df2)
print(df2.loc["a","D"])
print(df2.iloc[0,1])
# 取列数据
print(df2.loc["a"])
print(df2.loc["a",:])
print(df2.iloc[2,3])
# 多行多列
print(df2.loc[["a","b"],["D","G"]])
print(df2.iloc[:2,[1,2]])
目录
相关文章
|
19天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
50 0
|
13天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
31 2
|
20天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
31 2
|
11天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
11天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
13天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
13天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第33天】本文将介绍如何使用Python编程语言进行数据分析和可视化。我们将从数据清洗开始,然后进行数据探索性分析,最后使用matplotlib和seaborn库进行数据可视化。通过阅读本文,你将学会如何运用Python进行数据处理和可视化展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
80 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
182 4
|
3月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
86 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析