2.5 ndim ---- 返回 Series 的维数
d = {'zs': 12, 'ls': 23, 'ww': 35} s1 = pd.Series(d) print(s1) print('-'*20) print(s1.ndim) l = [[1, 1], [2, 2], [3, 3]] s2 = pd.Series(l) print(s2) print('-'*20) print(s2.ndim)
2.6 shape ---- 返回 Series 的维度
d = {'zs': 12, 'ls': 23, 'ww': 35} s1 = pd.Series(d) print(s1) print('-'*20) print(s1.shape) print() l = [[1, 1], [2, 2], [3, 3]] s2 = pd.Series(l) print(s2) print('-'*20) print(s2.shape)
3. Series 的方法
3.1 mean() ---- 求算术平均数
l = [12, 23, 24, 34] s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl']) print(s) print() print(s.mean())
3.2 min() max() ---- 求最值
l1 = [12, 23, 24, 34] s1 = pd.Series(l, index=['zs', 'ls', 'ww', 'zl']) print(s1) print() print(s1.max()) print(s1.min()) print() l2 = ['ac', 'ca', 'cd', 'ab'] s2 = pd.Series(l2) print(s2) print() print(s2.max()) print(s2.min())
3.3 argmax() argmin() idxmax() idxmin() ---- 获取最值索引
l1 = [12, 23, 24, 34] s1 = pd.Series(l, index=['zs', 'ls', 'ww', 'zl']) print(s1) print() # argmax() -- 最大值的数字索引 # idxmax() -- 最大值的标签索引 # 两个都不支持字符串类型的数据 print(s1.max(), s1.argmax(), s1.idxmax()) print(s1.min(), s1.argmin(), s1.idxmin())
3.4 median() ---- 求中位数
l = [12, 23, 24, 34] s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl']) print(s) print() print(s.median())
3.5 value_counts() ---- 求频数
l = [12, 23, 24, 34] s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl']) print(s) print() print(s.value_counts())
3.6 mode() ---- 求众数
l = [12, 23, 24, 34] s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl']) print(s) print() print(s.mode()) print() l = [12, 23, 24, 34, 34] s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl', 'zq']) print(s) print() print(s.mode())
3.7 quantile() ---- 求四分位数
四分位数:把数值从小到大排列并分成四等分,处于三个分割点位置的数值就是四分位数。
- 需要传入一个列表,列表中的元素为要获取的数的对应位置
l = [1, 1, 2, 2, 3, 3, 4, 4] s = pd.Series(l) print(s) print() print(s.quantile([0, .25, .50, .75, 1]))
3.8 std() ---- 标准差
总体标准差是反映研究总体内个体之间差异程度的一种统计指标。
总体标准差计算公式:
S = ∑ ( X i − X ˉ ) 2 n S=\sqrt{\frac{\sum\left(X_{i}-\bar{X}\right)^{2}}{n}}S=n∑(Xi−Xˉ)2
由于总体标准差计算出来会偏小,所以采用( n − d d o f ) (n-ddof)(n−ddof)的方式适当扩大标准差,即样本标准差。
样本标准差计算公式:
S = ∑ ( X i − X ˉ ) 2 n − d d o f S=\sqrt{\frac{\sum\left(X_{i}-\bar{X}\right)^{2}}{n-ddof}}S=n−ddof∑(Xi−Xˉ)2
l = [1, 1, 2, 2, 3, 3, 4, 4] s = pd.Series(l) print(s) print() # 总体标准差 print(s.std()) print() print(s.std(ddof=1)) print() # 样本标准差 print(s.std(ddof=2))
3.9 describe() ---- 统计 Series 的常见统计学指标结果
l = [1, 1, 2, 2, 3, 3, 4, 4] s = pd.Series(l) print(s) print() print(s.describe())