开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:Pandas基础 6】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15387
Pandas基础 6
内容简介:
一、处理有重复的标签索引
二、总结和描述性统计
一、处理有重复的标签索引
下面来看一下有重复 label 的轴索引该怎样处理,我们看到的所有例子都有 unique axis labels(index values),唯一的轴标签(索引值)。一些 pandas 函数(reindex),需要 label 是唯一的,但这并是不强制的。
比如下面有一个重复的索引:
obj=pd.Series(range(5),index=['a’,'a’, ’b', ’b', ’c'])obj//构造 series,1到4,标签值的名字是a,b,c
a 0
a 1
b 2
b 3
c 4
dtype:int64
index的is_unique 特性能告诉我们label是否是唯一的:obj.index.is_uniqueI
False
数据选择对于重复label则表现有点不同。如果一个label有多个值,那么就会返回一个series,如果是label只对应一个值的话,会返回一个标量:
obj[' a’]
a 0
a 1
dtype:int64
//a有两个值0,1
obj['c']
c 4//c只有一个值4,所以返回标量4
这个选择的逻辑也应用于 DataFrame:
df = pd. DataFrame(np. random.randn(4, 3), index=['a', ' a', 'b', 'b']) df
0 1 2
A -0.059074 1.421727 1.896414
A 0.555190 -0.265568 -1.451410
b -0.030001 -0.407768 -0.711312
b -2.100387 -0.319823 -0.062367
df.loc[’b’]
0 1 2
b -0.864999 -0.790284 0.691052
b 1.306508 -0.396013 -1.869685
二、总结和描述性统计
这里面的内容不全部讲解,仅讲解里面一个重要的功能, pandas 里面的汇总和描述性统计,这里主要是对数据框进行统计和汇总,还可以计算相关性和协方差,大家自行了解
Unique Values,Value Counts,and Membership
(唯一值,值计数,会员)
这里介绍另一种从一维 series 中提取信息的方法:
obj =pd. Series(I'c','a',’d', ’a', ’a', 'b', 'b','c', ’c')
第一个函数时unique,能告诉我们series里unique values有哪些:
uniques = obj.unique()
uniques
array(['c', 'a', ’d', 'b'], dtype=object)
返回的unique values不是有序的,但我们可以排序,uniques.sort()。相对的,value_counts 能计算 series 中值出现的频率:
obj.value_counts
a 3
d 1
b 2
c 3
dtype:int64