Python数据分析学习笔记,今天分享下利用Python对业务进行数据预处理,并利用线性回归进行数据预测。
壹 数据导入
Python下载及环境配置这里就不赘述了哈,网上教程非常多,我们直接一开始就进入干货,打它一个开门见山。
①导入Python常用数据分析库:常用的numpy、pandas、matplotlib先导入。
②将待处理的数据读取:read_excel进行Excel文件读取,用sheet_name指定导入的sheet。
③数据初视:用head函数将读取的数据表格展示前几行用于初步观察,可以看到初步的数据形式、字段。
贰 数据预处理
初步观察发现有一些列的数据是空的,它们对于数据分析没有意义,考虑去掉。并且后续进行一定的数据预处理。
①去掉无效列:运用drop函数去掉无效的数据列,并再次调用head函数观察数据。
②看上图效果,数据已经规整一些了,接下来需要看看整体的数据表还有多大:调用shape并用print函数打印出来,可以看到数据表格是227行、12列的大小。
③接下来需要进行数据缺失值处理:调用info函数,查看各列的数据,可以看到各列的数据还是有不一致的情况,需要做进一步的处理。
④先以我们后续需要用来做线性回归的列“内容阅读量”为标准,将不含该值的数据行去除:调用dropna函数,并执行info函数看数据情况。
⑤上述处理后,数据已经规整了一些,但某些行的数值仍然是缺失的,此时不能再整行或整列的进行删除了,须对个别缺失值执行填充:发现“月留”和“当月高活人数”这两列仍有缺失值,采取均值填充的方法处理,主要用到fillna函数。
至此,数据预处理流程完成。数据预处理非常关键,非常影响后续的数据分析流程。
叁 线性回归
数据预处理流程完成后,后续将进行线性回归,进行业务相关数据的拟合和预测。
①导入线性回归分析库:建立线性回归的自变量x和因变量y,这里我们以“内容阅读量”这一列数据作为x,以“业务DAU(人)”这一列作为y。
②建立线性回归方程,并计算出回归系数:调用linear_model库,计算回归系数为0.1683。
③绘制拟合图:调用matplotlib库里的scatter方法绘制y和x的散点图,并将线性回归拟合的直线也同步绘制上去。
④数据预测:调用linear_model库里的predict方法,可以预测出因变量后续的值。便于大家后续对结果进行预估。
至此,利用Python进行线性回归的实例完成。