暂无个人介绍
2022年07月
函数名 功能说明
count 统计数据值的数量,不包括NA值。
describe 对Series、DataFrame的列计算汇总统计。
min,max 计算最小值、最大值
argminargmax 计算最小值、最大值的索引位置
idxmin,idxmax 计算最小值、最大值的索引值
sum 计算总和
mean 计算平均值
median 返回中位数
var 计算样本值的方差
std 计算样本值的标准差
cumsum 计算样本值的累计和
diff 计算一阶差分
使用方法为:
from sklearn.datasets import load_ boston
boston = load_ boston()
数据集目录: anaconda3\Lib\site- packages\sklearn\datasets\data
机器学习是以人工智能为研究对象的科学。通过对数据进行学习获取经验,再使用学习到的经验对原算法的性能进行迭代优化,从而不断提高算法效果。
标准差也被称为标准偏差(Standard Deviation),统计学名词,描述各数据偏离平均数的距离(离均差)的平均数。标准差能反映一个数据集的离散程度,标准偏差越小,这些值偏离平均值就越少。
原因是numpy的std()函数和pandas的std()函数的默认参数ddof是不同的。ddof参数表示标准偏差类型,numpy中ddof默认是0,计算的是总体标准偏差;在pandas中ddof的值默认是1,计算的是样本标准偏差*。
In [8]:dfl.mean(axis-0)
Out[8]: Ht 1.688235
Wt 64.705882
dtype: float64
In [5]:df1.sum()
Out[5]:
Ht 28.7
Wt 1100.0
dtype:float64
In[7]: dfl.sum(axis=1)
Out[7]:
0 41.5
1 51.5
2 61.5
3 41.6
4 51.6
5 61.6
6 71.6
7 51.7
8 61.7
9 71.7
10 81.7
11 61.8
12 71.7
13 81.7
14 91.8
15 81.9
16 91.9
In [3]:s3=pd.Series(lLongitude’:39,Latitude':116,Temperature:23})
s3.mean ()
Out[3]:59.333333333333336
In [2]:import pandas as pd
s=pd.Series([1,356])
s.sum ()
Out[2]: 15
函数名 功能说明
count 统计数据值的数量,不包括NA值。
describe 对Series、DataFrame的列计算汇总统计。
min,max 计算最小值、最大值
argminargmax 计算最小值、最大值的索引位置
idxmin,idxmax 计算最小值、最大值的索引值
sum 计算总和
mean 计算平均值
median 返回中位数
var 计算样本值的方差
std 计算样本值的标准差
cumsum 计算样本值的累计和
diff 计算一阶差分
如果dataform没有自定义的index名称,则使用columns名和行的列名编号来访问。
访问5,6两行,0,1两列:
In [16]:data.iloc[[5,6],[0.1]]
Out[16]:
Ht Wt
5 1.6 60
6 1.6 70
5,6代表第六行和第七行,ht与wt代表这两列。
aoc函数以及ioc函数,这两个函数是dataform访问的升级版,列和行都能访问,其中ioc函数是按所有名抽取指定行列的数据,格式为[ioc,行索引,列索引],例如:```data.loc[5,6],['ht','wt']