pandas 对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者从DataFrame中提取一列或者一行Series
注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。
count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化
唯一值与值计数
obj=Series(list('cadaabbcc'))
uniques=obj.unique()
uniques
c 3
a 3
b 2
d 1
dtype: int64
排序的话
uniques.sort()
uniques
array(['a', 'b', 'c', 'd'], dtype=object)
value_counts用于计算一个Series中各值出现的频率.
obj.value_counts()
a 3
d 1
b 2
c 3
dtype: int64
value_counts还是一个顶级pandas方法,可用于任何数组或序列
pd.value_counts(obj.values, sort=False)
a 3
d 1
b 2
c 3
dtype: int64