【Python】数据分析:pandas之布尔索引

简介: 【Python】数据分析:pandas之布尔索引

&:与

|:或

不同条件需要用()括起来

import pandas as pd
# 构造字典数据
dic = {
    "name":["shanjialan","shanyanhong","luckyapple"],
    "age":[21,23,12],
    "hobby":["sports","music","programming"]
}
# dataframe读取字典
df = pd.DataFrame(dic)

3G9H6({DZ[PNT`8HT~0]17E.png

image.png

# 简单判断
print(df[df["age"]>18])
print(df[df["name"].str.len()>10])
# 复杂判断
print(df[(df["age"]>18)&(df["age"]<22)])

NV`7[SG$D`%_ABPUS(~%YWM.png

image.png

pandas字符串的方法

)Y{5G3`T[TYW6J_~2D7ALT5.png

pandas字符串的方法.png

pandas 缺失数据的处理

pd.isnull(df):df每个数据是否为空的bool矩阵

pd.notnull(df):df每个数据是否不为空的bool矩阵

缺失数据包括np.nan/None

GCMURF4QU)G_$3LZ_2D700Q.png

image.png

import pandas as pd
import numpy as np
# 构造字典数据
dic = {
    "name":["shanjialan","shanyanhong","luckyapple","hunvibe","chenwenhao"],
    "age":[21,23,0,np.nan,21],
    "hobby":["sports","music","programming","eating","basketball"]
}
# dataframe读取字典
df = pd.DataFrame(dic)
print(pd.isnull(df))
print(pd.notnull(df))

D}5`L]Y8%_BKV62K84~ARTN.png

image.png

缺失值的处理方法:删除或者填充

  1. df.dropna(how='all/any',inplace='True/False',axis=n):
  • how——以何种方式删除,all:所有数据都为nan,any表示只要有一个就可;
  • inplace:是否原地修改,TRUE为原地修改,FALSE为默认选择
  • axis:指定轴
  1. df.fillna(value):填充为value值

print(df.dropna(how='any',axis=0,inplace=False))
print(df["age"].fillna(value=df['age'].mean()))

XD`E5KI}KRZK[$%IC4G[6O5.png

image.png


注意:在pandas中出现nan进行求均值等操作会默认为0,和在numpy中不同

处理0值

t[t==0]=np.nan
目录
相关文章
|
5月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
437 0
|
5月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
621 0
|
8月前
|
自然语言处理 数据挖掘 数据处理
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
本文将介绍 10 个在数据处理中至关重要的 Pandas 技术模式。这些模式能够显著减少调试时间,提升代码的可维护性,并构建更加清晰的数据处理流水线。
291 3
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
|
7月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
613 0
|
8月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
224 4
|
11月前
|
人工智能 索引 Python
[oeasy]python091_列表_索引_index_中括号_索引函数
本文介绍了Python中列表与字符串的索引及index函数用法。通过range生成列表,使用索引[]访问和修改列表元素,index函数查找元素位置。字符串支持索引访问但不可直接修改。还探讨了16进制数在Python中的表示方法,以及日期、月份等特殊字符的Unicode范围。最后总结了列表与字符串操作的区别,并预告后续内容,提供蓝桥云课、GitHub和Gitee链接供进一步学习。
284 20
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
649 73
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
205 3
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
450 22
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
430 2

推荐镜像

更多