开发者学堂课程【Python 常用数据科学库:Pandas 基本操作】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/546/detail/7478
Pandas 基本操作
1、自己创建一个 dataframe 结构,先建一个data 数据中心,数据当中有列,知道每一列中的名字,样本值。比如说随便写一些值'aaa','bbb','ccc' 构造三个样本,具有国家属性,第二属性是人口,这样就构造出来了dataframe 结构。
In [12]: data = {'country':['aaa','bbb','ccc'],
'population':[10,12,14]}
df_data = pd. DataFrame (data)
df_data
In [14]: df_data. Info()
2、对数据进行操作,取指定的数据,把年龄输进去,查找一下,把 age 输进去,不要取太多,五个就行。
In [18]:age = df['Age']
age[:5]
3、series:dataframe 中的一行/列,dataframe 可以分解成很多 series。取一些values 值(前五个),展示一下。
In [19]:age. index
In [20]:age. values[:5]
In [21]:df.head()
In [23]:df['Age'][:5]
//索引可以自己指定,名字也是可以做索引的,原来的是1,2,3,4,5,改完之后就变成了名字,所以索引不光可以按照数字,也可以按照姓名。原先1,2,3,4指定年龄,但是改变索引之后,就可以看到姓名对应的年龄了,数据怎么看起来舒服怎么用。
In [24]: df = df.set_index('Name')
df.head()
In [25]:df['Age'][:5]
In [29]:age = df['Age']
Age[:5]
//在 age 中找年龄,把人名传进来,将人名作为索引,用这个人名帮忙做一些事情,可以知道当前结果。当进行了一个加法操作,进行赋值,原始的数据都加上了10,相当于每一个年龄都加上了这个值,乘法也是一样的。比如 mean 值,最大值,最小值,也可以算出来。
In [30]: age['Allen, Mr. William Henry']
In [33]:age = age + 10
age[:5]
In [34]:age = age *10
age[:5]
In [35]:age.mean()
In [36]:age.max()
In [37]:age.min()
4、describe()可以得到数据的基本统计特性
//使这些指标变得更简单、更加通俗易懂,观察数据的统计特性,年龄,性别等,相当于对这个 dataframe 进行统计,count 统计当前列有多少样本,mean 是均值,std 是差,min 最小值, 25%是四分之一,50%是一般,75%是四分之三。这些操作是需要去执行的。
In [38]:df. describe()