【python】学好数据处理的第一步:数据信息的分析(持续更新~)

简介: 【python】学好数据处理的第一步:数据信息的分析(持续更新~)
+关注继续查看

第一步:导入数据


一般来说,我们的数据都是从外部导入的,我们接触的最多的数据格式是CSV、Excel、xml。它们可以这么导入:

import pandas as pd
pd.read_csv("/file.csv") # 导入csv格式的数据
pd.read_excel("/file.excel") # 导入excel格式的数据
pd.read_xml("/file.excel") # 导入xml格式的数据

如果处理的是sklearn包中自带的糖尿病数据

data_diabetes = load_diabetes()
data_diabetes

be408ba2930c545b165dc74c763d2618_06c99cf0746341d3be817da03fbf995a.png


第二步:构建数据集,观察数据特点


从第一步中观察数据集的组成,我们可以将其分别提取出来,构成一个新的数据集合

(这里数据集指的是pandas中的DataFrame)


# 构建数据集
data = data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']
df = pd.DataFrame(data,columns=feature_names)
df['target'] = target

观察数据,这步很重要

df.head(10)
df.info()


ea2df5e7dd8053ae1b808e386726dacd_32b9c917ee3d4142a71eb9b5da604940.png

这些信息是由 pandas 库中 DataFrame.info() 方法自动生成的,用于描述数据框的列信息。具体来说,每一列都会显示以下信息:

  • Column:列名;
  • Non-Null Count:非空值的数量;
  • Dtype:数据类型。


相关文章
|
7天前
|
JSON 数据可视化 数据处理
使用Python的pandas库进行数据处理和可视化
使用Python的pandas库进行数据处理和可视化
33 2
|
13天前
|
存储 算法 数据处理
Python生成器深度解析:构建强大的数据处理管道
Python生成器深度解析:构建强大的数据处理管道
181 0
|
25天前
|
Linux 数据处理 iOS开发
Python空间数据处理环境搭建
常用的空间数据处理Python库 GDAL 全能型的基础空间数据处理库 fiona 基于GDAL的空间矢量数据处理库 rasterio 基于GDAL的空间栅格处理库 basemap 基于matplotlib的空间制图库 GeoPandas 基于pandas的空间数据分析库 RSGISlib 针对遥感数据及GIS分析的高级库
29 0
|
25天前
|
数据采集 数据处理 定位技术
Python空间数据处理实战
这是使用Python进行空间数据处理的系列教程。如果有热心网友对我的该系列博客《Python空间数据处理实战》有什么好的建议的话,比如需要增加哪些内容,写作风格上的改进等,可以直接给我留言或者发邮件,谢谢大家,希望我的分享能帮助到一些热衷GIS与RS数据处理的童鞋!如果有出版社希望,该系列的教程能够出版发行,欢迎联系作者!
48 0
|
2月前
|
数据处理 Python
问题解答之python数据处理
问题解答之python数据处理
|
2月前
|
数据处理 数据格式 Python
Python实战系列<三> | 不规则txt空气质量数据处理并绘图
Python实战系列<三> | 不规则txt空气质量数据处理并绘图
|
2月前
|
数据处理 Python
Python进阶(十二)常用数据处理模块
Python进阶(十二)常用数据处理模块
|
3月前
|
数据处理 Python
|
3月前
|
数据处理 Python
|
3月前
|
数据处理 Python
推荐文章
更多