Python数据分析 | 线性回归

简介: Python数据分析 | 线性回归

Python数据分析学习笔记,今天分享下利用Python对业务进行数据预处理,并利用线性回归进行数据预测。





壹 数据导入


Python下载及环境配置这里就不赘述了哈,网上教程非常多,我们直接一开始就进入干货,打它一个开门见山。

①导入Python常用数据分析库:常用的numpy、pandas、matplotlib先导入。

②将待处理的数据读取:read_excel进行Excel文件读取,用sheet_name指定导入的sheet。

③数据初视:用head函数将读取的数据表格展示前几行用于初步观察,可以看到初步的数据形式、字段。



数据预处理


初步观察发现有一些列的数据是空的,它们对于数据分析没有意义,考虑去掉。并且后续进行一定的数据预处理。

①去掉无效列:运用drop函数去掉无效的数据列,并再次调用head函数观察数据。

②看上图效果,数据已经规整一些了,接下来需要看看整体的数据表还有多大:调用shape并用print函数打印出来,可以看到数据表格是227行、12列的大小。

③接下来需要进行数据缺失值处理:调用info函数,查看各列的数据,可以看到各列的数据还是有不一致的情况,需要做进一步的处理。

④先以我们后续需要用来做线性回归的列“内容阅读量”为标准,将不含该值的数据行去除:调用dropna函数,并执行info函数看数据情况。

⑤上述处理后,数据已经规整了一些,但某些行的数值仍然是缺失的,此时不能再整行或整列的进行删除了,须对个别缺失值执行填充:发现“月留”和“当月高活人数”这两列仍有缺失值,采取均值填充的方法处理,主要用到fillna函数。

至此,数据预处理流程完成。数据预处理非常关键,非常影响后续的数据分析流程




线性回归


数据预处理流程完成后,后续将进行线性回归,进行业务相关数据的拟合和预测。

①导入线性回归分析库:建立线性回归的自变量x和因变量y,这里我们以“内容阅读量”这一列数据作为x,以“业务DAU(人)”这一列作为y。

②建立线性回归方程,并计算出回归系数:调用linear_model库,计算回归系数为0.1683。

③绘制拟合图:调用matplotlib库里的scatter方法绘制y和x的散点图,并将线性回归拟合的直线也同步绘制上去

④数据预测:调用linear_model库里的predict方法,可以预测出因变量后续的值。便于大家后续对结果进行预估。


至此,利用Python进行线性回归的实例完成。

目录
相关文章
|
6天前
|
机器学习/深度学习 数据采集 数据挖掘
如何用Python进行数据分析?
【6月更文挑战第13天】如何用Python进行数据分析?
104 66
|
1天前
|
机器学习/深度学习 人工智能 算法框架/工具
Python赋能AI数据分析
Python赋能AI数据分析
17 0
|
2天前
|
存储 数据挖掘 索引
Python streamlit框架开发数据分析网站并免费部署
使用Python的Streamlit框架,开发了一个在线数据分析工具,替代Excel查看设备温度CSV数据。通过pandas读取数据,matplotlib绘制图表。程序处理CSV,提取所需列,计算最大最小平均值,用户可多选查看特定数据。[GitHub](https://github.com/yigedaigua/MGHB)上有完整代码,应用已部署至Streamlit Cloud。
|
2天前
|
数据挖掘 数据库连接 Python
GitHub高赞!Python零基础也能搞定的数据分析与处理
经常会有人让我推荐一些 Python 入门教程。虽然 Python 入内教程到处都有,但是这些教程要么太宽泛(没有讲任何关于数据分析的内容),要么太专业(全是关于科学原理的内容)。然而Excel用户往往处在一个中间位置:他们的确是和数据打交道,但是科学原理对于他们来说可能又太专业了。他们常常有一些现有教程无法满足的特殊需求,举例如下 • 为完成某个任务,我应该用哪个 Python-Excel包? • 我如何将 Power Query 数据库连接迁移到 Python? • Excel中的 AutoFilter和数据透视表在 Python 中对应的是什么?
|
3天前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
29 11
|
4天前
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘实战:Python在金融数据分析中的应用案例
Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】
20 3
|
7天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【6月更文挑战第12天】在数字时代,Python因其强大的数据处理能力和易用性成为数据分析首选工具。结合Pandas(用于高效数据处理)和Matplotlib(用于数据可视化),能助你成为数据分析专家。Python处理数据预处理、分析和可视化,Pandas的DataFrame简化表格数据操作,Matplotlib则提供丰富图表展示数据。掌握这三个库,数据分析之路将更加畅通无阻。
|
8天前
|
JSON 数据挖掘 API
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
18 2
|
9天前
|
数据采集 数据可视化 数据挖掘
如何快速上手 Python,成为一名数据分析师
【6月更文挑战第10天】学习Python是成为数据分析师的关键。首先,掌握基本语法和数据结构,如变量、控制结构及列表、字典等。然后,学习NumPy、Pandas和Matplotlib库:NumPy用于数组计算,Pandas处理和分析数据,Matplotlib进行数据可视化。不断实践项目,从简单分析任务做起,并保持学习新技能的热情,关注技术动态。通过系统学习和实践,可迅速踏上数据分析师之路。
|
9天前
|
机器学习/深度学习 数据可视化 数据挖掘
python每日可视化分析:从过去到现代数据分析的演进
python每日可视化分析:从过去到现代数据分析的演进

热门文章

最新文章