开发者学堂课程【Python 常用数据科学库:Pandas 概述】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/546/detail/7477
Pandas 概述
Pandas:数据分析处理库
1、定义:
pandas 是基于 NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas 提供了大量能使我们快速便捷地处理数据的函数和方法。而且很快就会发现,它是使 Python 成为强大而高效的数据分析环境的重要因素之一。
2、处理:
//首先进行常规操作
In [1]: import pandas as pd
In [2]: df = pd.read_csv('./data/titanic.csv')
//直接读进来,想显示一个 df ,下面出来的就是从零到八百九十一个行,每个数据有12个特征,对数据进行读取,直接一个 df 是读取所有数据,但是数据太多了,所有我们引用 .head()可以读取前几条数据,指定前几条都可以,因为需求没有那么多,所有找到自己想找到的数据就行,这样做也是比较方便的。一般情况下,先看前几条。如果指定值就会帮你打印出来具体数据,不指定的话,就是默认前五条数据。
In [4]:df.head()
//info返回当前的信息,会出现很多个指标。
In [7]:df.info()
//进行一个数据的读取,dataframe 是最核心的一个结构,相当于一个有行有列的一个矩阵。Object 相当于一个串。memory usage: 83.6+ KB 告诉我们当前这个东西占着内存是多大。
//索引值有了就能查看每一列
In [8]:df.index
//调出列的名字,可以知道列名,数据当中的第一行就是列名。出来的会是字符串。
In[9]:df.columns
//查看 dtypes 值
In[10]:df.dtypes
//打印数值
In [11]:df. values
3、步骤:
(1)读取,(2)展示,(3)看信息