为了简单起见,这里假设下述函数输入的数组都是一维的。
【a】where
where
是一种条件函数,可以指定满足条件与不满足条件位置对应的填充值:
a = np.array([-1,1,-1,0]) np.where(a>0, a, 5) # 对应位置为True时填充a对应元素,否则填充5
array([5, 1, 5, 5])
【b】nonzero
, argmax
, argmin
这三个函数返回的都是索引,nonzero
返回非零数的索引,argmax
, argmin
分别返回最大和最小数的索引:
a = np.array([-2,-5,0,1,3,-1]) np.nonzero(a)
(array([0, 1, 3, 4, 5], dtype=int64),)
a.argmax()
4
a.argmin()
1
【c】any
, all
any
指当序列至少 存在一个 True
或非零元素时返回True
,否则返回False
all
指当序列元素 全为 Tr
ue
或非零元素时返回True
,否则返回False
a = np.array([0,1]) a.any()
True
a.all()
False
【d】cumprod
, cumsum
, diff
cumprod
, cumsum
分别表示累乘和累加函数,返回同长度的数组,diff
表示和前一个元素做差,由于第一个元素为缺失值,因此在默认参数情况下,返回长度是原数组减1
a = np.array([1,2,3]) a.cumprod()
array([1, 2, 6], dtype=int32)
a.cumsum()
array([1, 3, 6], dtype=int32)
np.diff(a)
array([1, 1])
【e】 统计函数
常用的统计函数包括max, min, mean, median, std, var, sum, quantile
,其中分位数计算是全局方法,因此不能通过array.quantile
的方法调用:
target = np.arange(5) target
array([0, 1, 2, 3, 4])
target.max()
4
np.quantile(target, 0.5) # 0.5分位数
2.0
但是对于含有缺失值的数组,它们返回的结果也是缺失值,如果需要略过缺失值,必须使用nan*
类型的函数,上述的几个统计函数都有对应的nan*
函数。
target = np.array([1, 2, np.nan]) target
array([ 1., 2., nan])
target.max()
nan
np.nanmax(target)
2.0
np.nanquantile(target, 0.5)
1.5
对于协方差和相关系数分别可以利用cov, corrcoef
如下计算:
target1 = np.array([1,3,5,9]) target2 = np.array([1,5,3,-9]) np.cov(target1, target2)
array([[ 11.66666667, -16.66666667], [-16.66666667, 38.66666667]])
np.corrcoef(target1, target2)
array([[ 1. , -0.78470603], [-0.78470603, 1. ]])
最后,需要说明二维Numpy
数组中统计函数的axis
参数,它能够进行某一个维度下的统计特征计算,当axis=0
时结果为列的统计指标,当axis=1
时结果为行的统计指标:
target = np.arange(1,10).reshape(3,-1) target
array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
target.sum(0)
array([12, 15, 18])
target.sum(1)
array([ 6, 15, 24])