Pandas学习笔记之Series-阿里云开发者社区

Pandas学习笔记之Series

2024-08-29 380

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pandas学习笔记之Series

一、Series基本概念及创建

1.基本概念

# Series 数据结构
# Series 是带有标签的一维数组，可以保存任何数据类型（整数，字符串，浮点数，Python对象等）,轴标签统称为索引
# 导入numpy、pandas模块
import numpy as np
import pandas as pd
s = pd.Series(np.random.rand(5))
print(s)
# 查看数据、
print('='*30)
print(type(s))
# .index查看series索引，类型为rangeindex
print("查看索引：",s.index, type(s.index))
# .values查看series值，类型是ndarray
print("查看值：",s.values, type(s.values))
# 核心：series相比于ndarray，是一个自带索引index的数组 → 一维数组 + 对应索引
# 所以当只看series的值的时候，就是一个ndarray
# series和ndarray较相似，索引切片功能差别不大
# series和dict相比，series更像一个有顺序的字典（dict本身不存在顺序），其索引原理与字典相似（一个用key，一个用index）

2.Series 创建方法

字典创建

# Series 创建方法一：由字典创建，字典的key就是index，values就是values
dic = {'a':1 ,'b':2 , 'c':3, '4':4, '5':5}
s = pd.Series(dic)
print(s)
# 注意：key肯定是字符串，假如values类型不止一个会怎么样？ → dic = {'a':1 ,'b':'hello' , 'c':3, '4':4, '5':5}

数组创建(一维)

# Series 创建方法二：由数组创建(一维数组)
arr = np.random.randn(5)
s = pd.Series(arr)
print(arr)
print(s)
# 默认index是从0开始，步长为1的数字
# index参数：设置index，长度保持一致
# dtype参数：设置数值类型
s = pd.Series(arr, index = ['a','b','c','d','e'],dtype = object)
print(s)

标量创建

# Series 创建方法三：由标量创建

# 如果data是标量值，则必须提供索引。该值会重复，来匹配索引的长度

s = pd.Series(10, index = range(4))

print(s)

3.Series 名称属性

s1 = pd.Series(np.random.randn(5))
print(s1)
print('='*50)
# name为Series的一个参数，创建一个数组的 名称
# .name方法：输出数组的名称，输出格式为str，如果没用定义输出名称，输出为None
s2 = pd.Series(np.random.randn(5),name = 'test')
print(s2)
print(s1.name, s2.name,type(s2.name))
print('='*50)
# .rename()重命名一个数组的名称，并且新指向一个数组，原数组不变
s3 = s2.rename('hehehe')
print(s3)
print(s3.name, s2.name)

二、Pandas数据结构Series：索引

1.位置下标

s = pd.Series(np.random.rand(5))
print(s)
# 位置下标从0开始
# 输出结果为numpy.float格式，
print(s[0],type(s[0]),s[0].dtype)
# 可以通过float()函数转换为python float格式
# numpy.float与float占用字节不同
print(float(s[0]),type(float(s[0])))
# s[-1]结果如何？报错

2.标签索引

s = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
print(s)
# 方法类似下标索引，用[]表示，内写上index，注意index是字符串
print(s['a'],type(s['a']),s['a'].dtype)
# 如果需要选择多个标签的值，用[[]]来表示（相当于[]中包含一个列表）
# 多标签索引结果是新的数组
sci = s[['a','b','e']]
print(sci,type(sci))

3.切片索引

s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
# 注意：用index做切片是末端包含
print(s1[1:4],s1[4])
print(s2['a':'c'],s2['c'])
print(s2[0:3],s2[3])
print('='*50)
# 下标索引做切片，和list写法一样
print(s2[:-1])
print(s2[::2])

4.布尔型索引

s = pd.Series(np.random.rand(3)*100)
s[4] = None  # 添加一个空值
print(s)
bs1 = s > 50
# 数组做判断之后，返回的是一个由布尔值组成的新的数组
# .isnull() / .notnull() 判断是否为空值 (None代表空值，NaN代表有问题的数值，两个都会识别为空值)
bs2 = s.isnull()
bs3 = s.notnull()
print(bs1, type(bs1), bs1.dtype)
print(bs2, type(bs2), bs2.dtype)
print(bs3, type(bs3), bs3.dtype)
print('='*50)
# 布尔型索引方法：用[判断条件]表示，其中判断条件可以是 一个语句，或者是 一个布尔型数组！
print(s[s > 50])
print(s[bs3])

三、Series基本技巧

1.数据查看

s = pd.Series(np.random.rand(50))
# .head()查看头部数据
# .tail()查看尾部数据
# 默认查看5条
print(s.head(10))
print(s.tail())

2.重新索引

# .reindex将会根据索引重新排序，如果当前索引不存在，则引入缺失值
s = pd.Series(np.random.rand(3), index = ['a','b','c'])
# .reindex()中也是写列表 这里'd'索引不存在，所以值为NaN
s1 = s.reindex(['c','b','a','d'])
print(s1)
print('='*50)
# fill_value参数：填充缺失值的值
s2 = s.reindex(['c','b','a','d'], fill_value = 0)
print(s2)

3.对齐

# Series 和 ndarray 之间的主要区别是，Series 上的操作会根据标签自动对齐 index顺序不会影响数值计算，以标签来计算
s1 = pd.Series(np.random.rand(3), index = ['Jack','Marry','Tom'])
s2 = pd.Series(np.random.rand(3), index = ['Wang','Jack','Marry'])
print(s1)
print(s2)
print('='*30)
# 空值和任何值计算结果扔为空值
print(s1+s2)

4.添加、修改、删除值

#删除
s = pd.Series(np.random.rand(5), index = list('ngjur'))
# drop 删除元素之后返回副本(inplace=False默认False返回新的副本，为True则直接修改)
s1 = s.drop('n')
s2 = s.drop(['g','j'])
print(s1)
print(s2)
print(s)
print('='*50)
# 添加
s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = list('ngjur'))
# 直接通过下标索引/标签index添加值
s1[5] = 100
s2['a'] = 100
print(s1)
print(s2)
# 通过.append方法，直接添加一个数组
# .append方法生成一个新的数组，不改变之前的数组
s3 = s1._append(s2)
print(s3)
print(s1)
print('='*50)
# 修改
s = pd.Series(np.random.rand(3), index = ['a','b','c'])
# 通过索引直接修改，类似序列
s['a'] = 100
s[['b','c']] = 200
print(s)

其他方法：

Pandas学习笔记之Series

一、Series基本概念及创建

1.基本概念

2.Series 创建方法

3.Series 名称属性

二、Pandas数据结构Series：索引

1.位置下标

2.标签索引

3.切片索引

4.布尔型索引

三、Series基本技巧

1.数据查看

2.重新索引

3.对齐

4.添加、修改、删除值

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pandas学习笔记之Series

一、Series基本概念及创建

1.基本概念

2.Series 创建方法

3.Series 名称属性

二、Pandas数据结构Series：索引

1.位置下标

2.标签索引

3.切片索引

4.布尔型索引

三、Series基本技巧

1.数据查看

2.重新索引

3.对齐

4.添加、修改、删除值

热门文章

最新文章

相关课程

相关电子书