数据分析从零开始实战 | 基础篇(一)

简介: 数据分析从零开始实战 | 基础篇(一)

简说Python,号主老表,Python终身学习者,数据分析爱好者,从18年开始分享Python知识,原创文章227篇,写过Python、SQL、Excel入门文章,也写过Web开发、数据分析文章,老表还总结整理了一份2022Python学习资料和电子书资源,关注后私信回复:2022 即可领取。

一、写在前面

之前的一个系列 『Python小知识 』主要和大家分享一下我快速看过一遍《零压力学Python》后觉得比较好玩、重要的一些知识点。

接下来我打算花一个月左右的时间把《数据分析实战》看完,实操一遍,同样开成一个系列『数据分析从零开始实战』,既然说了从零开始,就肯定是从零开始,当然如果真的一点基础都没有,建议大家把 『Python小知识 』专栏先看一遍。

Python小技能入门四篇

Python小知识 | 这些技能你不会?(一)

Python小知识 | 这些技能你不会?(二)

Python小知识 | 这些技能你不会?(三)

Python小知识 | 这些技能你不会?(四)

二、知识点概要

1.创建一个虚拟python运行环境,专门用于本系列学习;
2.数据分析常用模块pandas安装
3.利用pandas模块读写CSV格式文件

三、开始动手动脑

1.创建虚拟环境

我平时比较喜欢Pycharm,所以本系列打算完全用Pycharm做,Pycharm安装可以直接到官网上下载,使用社区版即可。
(1)好的正式开始,打开Pycharm,点击File->New Project,基本配置说明见下图。
特别说明:python里面项目路径里不要出现中文,同时项目名称也不要出现中文,名称尽量能够概括项目内容。

image.png

操作步骤图

(2)创建成功后,我们会在对应目录下面发现多了项目文件和虚拟环境文件。

2.数据分析常用模块Pandas安装

(1)零基础教程,首先教大家怎么进入虚拟环境:进入到目录I:\pyCoding\Frame\Data_analysis\Scripts(我的虚拟环境目录),按住shift+鼠标右键,打开powershell或者cmd(如果是powershell就先输入cmd),再输入activate,进入虚拟环境,你会发现在路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:

PS I:\pyCoding\Frame\Data_analysis\Scripts> cmd
Microsoft Windows [版本 10.0.17134.112]
(c) 2018 Microsoft Corporation。保留所有权利。
I:\pyCoding\Frame\Data_analysis\Scripts>activate
(Data_analysis) I:\pyCoding\Frame\Data_analysis\Scripts>

不知道大家有没有觉得很麻烦,我是觉得特别麻烦,每次进入虚拟环境都要先到指定文件路径,然后再输入指令,不符合程序员的风格啊!当然有简单方法,具体操作看我之前写的一篇文章里有详细介绍,点击这里查看,怎么快速进入虚拟环境

(2)安装pandas模块
使用快捷方式进入虚拟环境后,直接
pip指令安装

# cmd下直接操作
C:\Users\82055>workon
Pass a name to activate one of the following virtualenvs:
==============================================================================
Data_analysis
spiderenv
C:\Users\82055>workon Data_analysis
(Data_analysis) C:\Users\82055>pip install pandas

安装结果:

image.png

安装过程

安装过程大概1分钟左右,完成后会显示

Installing collected packages: pytz, numpy, six, python-dateutil, pandas
Successfully installed numpy-1.15.4 pandas-0.23.4 python-dateutil-2.7.5 pytz-2018.7 six-1.11.0

很明显看出,这个过程不仅安装了pandas包,还安装了numpy,pytz,six,python-dateutil这些附加包,后面我们也会用上。

3.利用pandas模块读写CSV格式文件

(1)数据文件下载

本系列按书上来的数据都是这里面的,《数据分析实战》书中源代码也在这个代码仓库中,当然后面我自己也会建一个代码仓库,记录自己的学习过程,大家可以先从这里下载好数据文件。

不会从github下载文件的,可以关注微信公众号:简说Python,在微信公众号后台回复:数据分析实战。(我已经下载整理好了,上传到了百度云盘供大家下载)

(2)pandas基本介绍

pandas为Python编程语言提供高性能,是基于NumPy 的一种易于使用的数据结构和数据分析工具,pandas为我们提供了高性能的高级数据结构(比如:DataFrame)和高效地操作大型数据集所需的工具,同时提供了大量能使我们快速便捷地处理数据的函数和方法。

(3)利用pandas读取CSV文件

读取代码:

# 导入数据处理模块
import pandas as pd
import os
# 获取当前文件父目录路径
father_path = os.getcwd()
# 原始数据文件路径
rpath_csv = father_path+r'\data01\city_station.csv'
# 读取数据
csv_read = pd.read_csv(rpath_csv)
# 显示数据前10条
print(csv_read.head(10))

运行结果:

image.png


函数解析:
read_csv(filepath_or_buffer,sep,header,names,skiprows,na_values,encoding,nrows)
按指定格式读取csv文件。
常见参数解析
1. filepath_or_buffer:字符串,表示文件路径;

2. sep: 字符串,指定分割符,默认是’,’;

3. header:数值, 指定第几行作为列名(忽略注解行),如果没有指定列名,默认header=0; 如果指定了列名header=None;

4. names: 列表,指定列名,如果文件中不包含header的行,应该显性表示header=None。

5. skiprows:列表,需要忽略的行数(从0开始),设置的行数将不会进行读取。

6. na_values:列表,设置需要将值替换成NAN的值,pandas默认NAN为缺省,可以用来处理一些缺省、错误的数值。

7. encoding:字符串,用于unicode的文本编码格式。例如,"utf-8"或"gbk"等文本的编码格式。

8. nrows:需要读取的行数。

(4)利用pandas写入CSV文件

写入代码:

import pandas as pd
import os
# 获取当前文件父目录路径
father_path = os.getcwd()
# 保存数据文件路径
path_csv = father_path+r'\data01\temp_city.csv'
# 写入数据(列名+列值)
data = {"站点名": ["北京北", "北京东", "北京", "北京南", "北京西"],
        "代号": ["VAP", "BOP", "BJP", "VNP", "BXP"]}
# 数据初始化为DataFrame对象
df = pd.DataFrame(data)
# 数据写入
df.to_csv(path_csv)

运行结果:

image.png

函数解析:

to_csv(path_or_buf,sep,na_rep,columns,header,index)

1. path_or_buf:字符串,文件名、文件具体、相对路径、文件流等;

2. sep:字符串,文件分割符号;

3. na_rep:字符串,将NaN转换为特定值;

4. columns:列表,选择部分列写入;

5. headerNone,写入时忽略列名;

6. index:False则选择不写入索引,默认为True。


相关文章
|
1月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
79 5
|
3月前
|
数据可视化 数据挖掘 Linux
震撼发布!Python数据分析师必学,Matplotlib与Seaborn数据可视化实战全攻略!
在数据科学领域,数据可视化是连接数据与洞察的桥梁,能让复杂的关系变得直观。本文通过实战案例,介绍Python数据分析师必备的Matplotlib与Seaborn两大可视化工具。首先,通过Matplotlib绘制基本折线图;接着,使用Seaborn绘制统计分布图;最后,结合两者在同一图表中展示数据分布与趋势,帮助你提升数据可视化技能,更好地讲述数据故事。
57 1
|
2月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
200 0
|
2月前
|
SQL 数据采集 数据可视化
深入 Python 数据分析:高级技术与实战应用
本文系统地介绍了Python在高级数据分析中的应用,涵盖数据读取、预处理、探索及可视化等关键环节,并详细展示了聚类分析、PCA、时间序列分析等高级技术。通过实际案例,帮助读者掌握解决复杂问题的方法,提升数据分析技能。使用pandas、matplotlib、seaborn及sklearn等库,提供了丰富的代码示例,便于实践操作。
170 64
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
3月前
|
数据挖掘 Python
Pandas实战(1):电商购物用户行为数据分析
Pandas实战(1):电商购物用户行为数据分析
117 1
|
3月前
|
数据挖掘 Python
Pandas实战(3):电商购物用户行为数据分析
Pandas实战(3):电商购物用户行为数据分析
130 1
|
3月前
|
数据挖掘 Python
Pandas实战(2):电商购物用户行为数据分析
Pandas实战(2):电商购物用户行为数据分析
74 1
|
2月前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
133 0
|
4月前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战