【python】学好数据处理的第一步:数据信息的分析(持续更新~)

简介: 【python】学好数据处理的第一步:数据信息的分析(持续更新~)

第一步:导入数据


一般来说,我们的数据都是从外部导入的,我们接触的最多的数据格式是CSV、Excel、xml。它们可以这么导入:

import pandas as pd
pd.read_csv("/file.csv") # 导入csv格式的数据
pd.read_excel("/file.excel") # 导入excel格式的数据
pd.read_xml("/file.excel") # 导入xml格式的数据

如果处理的是sklearn包中自带的糖尿病数据

data_diabetes = load_diabetes()
data_diabetes

be408ba2930c545b165dc74c763d2618_06c99cf0746341d3be817da03fbf995a.png


第二步:构建数据集,观察数据特点


从第一步中观察数据集的组成,我们可以将其分别提取出来,构成一个新的数据集合

(这里数据集指的是pandas中的DataFrame)


# 构建数据集
data = data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']
df = pd.DataFrame(data,columns=feature_names)
df['target'] = target

观察数据,这步很重要

df.head(10)
df.info()


ea2df5e7dd8053ae1b808e386726dacd_32b9c917ee3d4142a71eb9b5da604940.png

这些信息是由 pandas 库中 DataFrame.info() 方法自动生成的,用于描述数据框的列信息。具体来说,每一列都会显示以下信息:

  • Column:列名;
  • Non-Null Count:非空值的数量;
  • Dtype:数据类型。


相关文章
|
23天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
118 70
|
25天前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
|
21天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费市场分析的深度学习模型
使用Python实现智能食品消费市场分析的深度学习模型
99 36
|
2天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
15天前
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
64 15
|
19天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费趋势分析的深度学习模型
使用Python实现智能食品消费趋势分析的深度学习模型
83 18
|
23天前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
7月前
|
开发者 索引 Python
实践:如何使用python在网页的表格里抓取信息
实践:如何使用python在网页的表格里抓取信息
127 0
|
SQL 关系型数据库 数据库连接
使用python3抓取pinpoint应用信息入库
使用python3通过pinpoint api来获取pinpoint中应用基础信息、上下游链路,并入库
1979 0
|
数据采集 供应链 机器人
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
456 0
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务