Python爬虫-数据处理与存储(一)

简介: Python爬虫-数据处理与存储(一)

Python爬虫-数据处理与存储
数据处理
可以使用pandas模块来实现数据处理,pandas是一个开源的并且通过BSD许可的库。它主要为Python语言提供高性能、易于使用数据结构和数据分析工具,此外还提供了多种数据操作和数据处理方法。由于pandas是第三方模块所以在使用前需要安装并导入该模块。

pandas 数据结构
pandas的数据结构中有两大核心,分别是Series与DataFrame。 其中Series是一维数组,它与Python中基本数据结构List相近。Series可以保存多种数据类型的数据,如布尔值、字符串、数字类型等。DataFrame是一种表格形式的数据结构,类似于Excel表格,是一种二维的表格型数据结构。

1.Series对象
§ 创建Series对象

在创建Series对象时,只需要将数组形式的数据传入Series()构造函数中即可。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 7:30 PM
# 文件      :Series对象.py
# IDE      :PyCharm

# 导入pandas模块
import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']

# 创建Series对象
series = pd.Series(data)
# 输出Series对象内容
print(series)

程序运行结果如下:

0    A
1    B
2    C
dtype: object

Process finished with exit code 0

说 明

在上述程序的运行结果中,左侧数字列为索引列,右侧字母列为索引对应的元素。Series对象在没有指定索引时,将默认生成从0开始依次递增的索引值。

§ 在创建Series对象时,是可以指定索引名称的,例如指定索引项为a、b、c。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 7:48 PM
# 文件      :指定索引的Series对象.py
# IDE      :PyCharm

# 导入pandas模块
import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']
# 创建索引名称的数组
index = ['a', 'b', 'c']

# 创建指定索引的Series对象
series = pd.Series(data, index=index )
# 输出指定索引的Series对象内容
print(series)

程序运行结果如下:

a    A
b    B
c    C
dtype: object

Process finished with exit code 0

§ 访问数据

在访问Series对象中的数据时,可以单独访问索引数组或者元素数组。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 7:52 PM
# 文件      :访问数据.py
# IDE      :PyCharm

# 导入pandas模块
import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']
# 创建索引名称的数组
index = ['a', 'b', 'c']

# 创建指定索引的Series对象
series = pd.Series(data, index=index )
# 输出索引数组
print('索引数组为:', series.index)
# 打印元素数组
print('元素数组为:', series.values)

程序运行结果为:

索引数组为: Index(['a', 'b', 'c'], dtype='object')
元素数组为: ['A' 'B' 'C']

Process finished with exit code 0

当需要获取指定下标的数组元素时,可以直接通过“Series对象[下标]“的方式进行数组元素的获取,数组下标从0开始。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 7:57 PM
# 文件      :获取指定下标的数组元素.py
# IDE      :PyCharm

import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']
# 创建索引名称的数组
index = ['a', 'b', 'c']

# 创建指定索引的Series对象
series = pd.Series(data, index=index )
# 输出指定下标的数组元素
print('指定下标的数组元素为:', series[1])
# 输出指定索引的数组元素
print('指定索引的数组元素为:', series['a'])

程序运行结果如下:

指定下标的数组元素为: B
指定索引的数组元素为: A

Process finished with exit code 0

当需要获取多个下标对应的Series对象时,可以指定下标范围,示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 8:03 PM
# 文件      :指定下标范围获取数据.py
# IDE      :PyCharm

import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']
# 创建索引名称的数组
index = ['a', 'b', 'c']

# 创建指定索引的Series对象
series = pd.Series(data, index=index)
# 输出下标为012对应的Series对象
print('获取多个下标对应的Series对象:')
print(series[0:3])

程序运行结果如下:

获取多个下标对应的Series对象:
a    A
b    B
c    C
dtype: object

Process finished with exit code

除了通过指定下标范围的方式获取Series对象之外,还可以通过指定多个索引的方式获取Series对象。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 8:13 PM
# 文件      :指定多个索引方式获取Series对象.py
# IDE      :PyCharm

import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']
# 创建索引名称的数组
index = ['a', 'b', 'c']

# 创建指定索引的Series对象
series = pd.Series(data, index=index)
# 输出索引a、b对应的Series对象
print('获取多个索引对应的Series对象:')
print(series[['a', 'b']])

程序运行结果如下:

获取多个索引对应的Series对象:
a    A
b    B
dtype: object

Process finished with exit code 0

§ 修改元素值

修改Series对象的元素值时,同样可以通过指定下标或者指定索引的方式来实现。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 8:19 PM
# 文件      :修改Series对象的元素值.py
# IDE      :PyCharm

# 导入pandas模块
import pandas as pd

# 创建数据数组
data = ['A', 'B', 'C']
# 创建索引名称的数组
index = ['a', 'b', 'c']

# 创建指定索引的Series对象
series = pd.Series(data, index=index )

# 修改下标为0的元素值
series[0] = 'D'
print('修改下标为0的元素值:\n')
print(series)

# 修改索引为b的原素值
series['b'] = 'A'
print('修改索引为b的元素值:')
# 打印修改元素值以后的Series对象
print(series)

程序运行结果如为:

修改下标为0的元素值:

a    D
b    B
c    C
dtype: object
修改索引为b的元素值:
a    D
b    A
c    C
dtype: object

Process finished with exit code 0
  1. DataFrame对象
    在创建DataFrame对象时,需要通过字典来实现。其中每列的名称为键,而每个键对应的是一个数组,这个数组作为值。示例代码如下:
#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 10:09 PM
# 文件      :DataFrame对象.py
# IDE      :PyCharm

# 导入pandas模块
import pandas as pd

data = {
   'A':[1, 2, 3, 4, 5],
        'B':[6, 7, 8, 9, 10],
        'C':[11, 12, 13, 14, 15]}
# 创建DataFrame对象
data_frame = pd.DataFrame(data)
# 输出DataFrame对象内容
print(data_frame)

程序运行结果如下:

A   B   C
0  1   6  11
1  2   7  12
2  3   8  13
3  4   9  14
4  5  10  15

Process finished with exit code 0

说 明

上面运行结果中看到,左侧单独的数字(0-4)为索引列,在没有指定特定的索引时,DataFrame对象默认的索引将从0开始递增。右侧A、B、C列名为键,列名对应的值为数组。

DataFrame对象同样可以单独指定索引名称,指定方式与Series对象类似,示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 10:29 PM
# 文件      :单独指定索引名称.py
# IDE      :PyCharm

import pandas as pd

data = {
   'A':[1, 2, 3, 4, 5],
        'B':[6, 7, 8, 9, 10],
        'C':[11, 12, 13, 14, 15]}
# 自定义索引
index = ['a', 'b', 'c', 'd', 'e']

# 创建自定义索引DataFrame对象
data_frame = pd.DataFrame(data, index = index)
# 输出DataFrame对象内容
print(data_frame)

程序运行结果如下:

A   B   C
a  1   6  11
b  2   7  12
c  3   8  13
d  4   9  14
e  5  10  15

Process finished with exit code 0

如果数据中含有不需要的数据列时,可以在创建DataFrame对象时指定需要的数据列名。示例代码如如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 10:33 PM
# 文件      :指定需要的数据列名.py
# IDE      :PyCharm

import pandas as pd

data = {
   'A':[1, 2, 3, 4, 5],
        'B':[6, 7, 8, 9, 10],
        'C':[11, 12, 13, 14, 15]}

# 创建指定列名的DataFrame对象
data_frame = pd.DataFrame(data, columns=['B', 'C'])
# 输出DataFrame对象内容
print(data_frame)

程序运行结果如下:

B   C
0   6  11
1   7  12
2   8  13
3   9  14
4  10  15

Process finished with exit code 0

接下文 Python爬虫-数据处理与存储(二)
https://developer.aliyun.com/article/1617982

相关文章
|
4月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
4月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
387 0
|
4月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
458 1
|
4月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
578 0
|
4月前
|
Java 数据处理 索引
(numpy)Python做数据处理必备框架!(二):ndarray切片的使用与运算;常见的ndarray函数:平方根、正余弦、自然对数、指数、幂等运算;统计函数:方差、均值、极差;比较函数...
ndarray切片 索引从0开始 索引/切片类型 描述/用法 基本索引 通过整数索引直接访问元素。 行/列切片 使用冒号:切片语法选择行或列的子集 连续切片 从起始索引到结束索引按步长切片 使用slice函数 通过slice(start,stop,strp)定义切片规则 布尔索引 通过布尔条件筛选满足条件的元素。支持逻辑运算符 &、|。
282 0
|
4月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
4月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
10月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
615 6
|
10月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
1410 31

热门文章

最新文章

推荐镜像

更多