【python】学好数据处理的第一步:数据信息的分析(持续更新~)

简介: 【python】学好数据处理的第一步:数据信息的分析(持续更新~)

第一步:导入数据


一般来说,我们的数据都是从外部导入的,我们接触的最多的数据格式是CSV、Excel、xml。它们可以这么导入:

import pandas as pd
pd.read_csv("/file.csv") # 导入csv格式的数据
pd.read_excel("/file.excel") # 导入excel格式的数据
pd.read_xml("/file.excel") # 导入xml格式的数据

如果处理的是sklearn包中自带的糖尿病数据

data_diabetes = load_diabetes()
data_diabetes

be408ba2930c545b165dc74c763d2618_06c99cf0746341d3be817da03fbf995a.png


第二步:构建数据集,观察数据特点


从第一步中观察数据集的组成,我们可以将其分别提取出来,构成一个新的数据集合

(这里数据集指的是pandas中的DataFrame)


# 构建数据集
data = data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']
df = pd.DataFrame(data,columns=feature_names)
df['target'] = target

观察数据,这步很重要

df.head(10)
df.info()


ea2df5e7dd8053ae1b808e386726dacd_32b9c917ee3d4142a71eb9b5da604940.png

这些信息是由 pandas 库中 DataFrame.info() 方法自动生成的,用于描述数据框的列信息。具体来说,每一列都会显示以下信息:

  • Column:列名;
  • Non-Null Count:非空值的数量;
  • Dtype:数据类型。


相关文章
|
3天前
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能舆情监测与分析
【8月更文挑战第16天】 使用Python实现深度学习模型:智能舆情监测与分析
18 1
|
3天前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
13 1
|
4天前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
4天前
|
数据采集 Java PHP
使用Python+requests简单实现模拟登录以及抓取接口数据
本文通过Python的requests库演示了如何实现模拟登录和抓取接口数据的过程,包括设置请求头、发送POST请求进行登录以及使用登录后的会话进行GET请求获取数据。
15 1
|
1天前
|
消息中间件 SQL Java
实时数仓 Hologres产品使用合集之如何用python将kafka数据写入
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
3天前
|
JSON 缓存 安全
Python pickle 二进制序列化和反序列化 - 数据持久化
Python pickle 二进制序列化和反序列化 - 数据持久化
10 0
|
4天前
|
API Python
Python FastAPI 获取 Neo4j 数据
Python FastAPI 获取 Neo4j 数据
7 0
|
自然语言处理 算法 Python
|
自然语言处理 算法 索引
|
7天前
|
算法 程序员 开发工具
百万级Python讲师又一力作!Python编程轻松进阶,豆瓣评分8.1
在学习Python的旅程中你是否正在“绝望的沙漠”里徘徊? 学完基础教程的你,是否还在为选择什么学习资料犹豫不决,不知从何入手,提高自己?
百万级Python讲师又一力作!Python编程轻松进阶,豆瓣评分8.1