【Pandas数据分析2】导入数据

简介: 【Pandas数据分析2】导入数据

二、导入数据

1、导入Excel文件

导入.xls.xlsx文件:

pd.read_excel(io, sheet_name, header)

参数说明:

  • io:.xls.xlsx文件路径或类文件对象
  • sheet_name:工作表,取值如下表所示
  • header:默认值为0,取第一行的值为列名,数据为除列名以外的数据。如果数据不包含列名,则设置header=None
说明
sheet_name=0 第一个Sheet页中的数据作为DataFrame对象
sheet_name=1 第二个Sheet页中的数据作为DataFrame对象
sheet_name=‘Sheet1’ 名称为’Sheet1’的Sheet页中的数据作为DataFrame对象
sheet_name=[0, 1, ‘Sheet3’] 第一个、第二个和名称为Sheet3的Sheet页中的数据作为DataFrame对象
sheet_name=None 读取所有工作表

1.1 导入全部数据

import pandas as pd
df = pd.read_excel('../data/京东鞋子评论信息.xlsx', sheet_name='码数分析', header=None)
print(df)
0  1    2
0  39  2  0.2
1  40  1  0.1
2  42  4  0.4
3  43  2  0.2
4  45  1  0.1

1.2 导入一列数据

import pandas as pd
df = pd.read_excel('../data/学员成绩统计.xlsx', sheet_name='及格成员名单', usecols=[1])
print(df)
姓名
0   刘磊
1   于爽
2   丁宁
3  高春艳
4   李帅
5   赵颖
6  杨春言
7  吴贤执
8   朱彦
9   李俊

1.3 导入多列数据

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('../data/学员成绩统计.xlsx', sheet_name='及格成员名单', usecols=['姓名', '总成绩'])
print(df)
姓名  总成绩
0    刘磊      71
1    于爽      69
2    丁宁      65
3  高春艳      67
4    李帅      73
5    赵颖      79
6  杨春言      65
7  吴贤执      45
8    朱彦      64
9    李俊      68

2、导入CSV文件

pd.read_csv(filepath_or_buffer, sep=',', header, encoding=None)

参数说明:

  • filepath_or_buffer:字符串。文件路径,也可以是URL链接
  • sep:字符串。分隔符
  • header:指定作为列名的行,默认值为0。即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None
  • encoding:字符串,默认值为None。文件的编码格式

import pandas as pd
df = pd.read_csv('../data/京东鞋子评论信息.csv', sep=',', encoding='gbk')
print(df.head())
评论内容             评论时间 购买颜色  鞋码
0           清爽不油腻,百搭百配小白鞋。我就喜欢这一款了。  2021/7/26 11:57  黑白兰  39
1                          和想象中的一样好  2022/3/27 19:15   灰黑  42
2       因为这是跑鞋,所以它的抓地能力被做的很有效,质感很好。  2021/8/24 22:03  黑白灰  40
3  鞋子质量很不错,看起来很舒服,但是鞋子容易弄脏,好在网面不是白色  2022/2/26 22:34  白灰绿  43
4                              挺新颖的  2021/9/25 14:31  黑白灰  42

3、导入txt文件

pd.read_csv(filepath_or_buffer, sep='\t', header, encoding=None)

import pandas as pd
df = pd.read_csv('../data/rating.txt', sep='\t', encoding='gbk', header=None)
print(df.head())
0    1  2         3
0  196  242  9  88125094
1  852  456  8  74125896
2  423  521  2  15981236
3  123  125  0  12345695
4  147  741  4  14752385

4、导入HTML网页

pd.read_html(io, match='.+', flavor, header, encoding)

参数说明:

  • io:字符串。文件路径,可以是URL链接,网址不接受https
  • match:正则表达式
  • flavor:解释器,默认为’lxml’
  • header:指定列标题所在的行
  • encoding:文件的编码格式

链接:http://www.espn.com/nba/salaries

import pandas as pd
url = 'http://www.espn.com/nba/salaries'
df = pd.DataFrame()  # 创建一个空的DataFrame对象
# DataFrame添加数据
df = df.append(pd.read_html(url, header=0))
print(df)
# 保存成CSV文件
df.to_csv('../data/nba_salaries.csv', index=False)
RK                         NAME                    TEAM       SALARY
0    1            Stephen Curry, PG   Golden State Warriors  $48,070,014
1    2        Russell Westbrook, PG      Los Angeles Lakers  $47,063,478
...
10  RK                         NAME                    TEAM       SALARY
...
21  RK                         NAME                    TEAM       SALARY
...
32  RK                         NAME                    TEAM       SALARY
...
41  39           Gordon Hayward, SF       Charlotte Hornets  $30,075,000
42  40        Jaren Jackson Jr., PF       Memphis Grizzlies  $28,946,605

4.1 补充

在读取HTML网页时,当使用F12(或鼠标右键,点击检查)查看网页源代码时,具有table标签时,才可以读取,如下图所示:

目录
相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
78 0
|
3月前
|
数据采集 数据挖掘 数据处理
使用Python和Pandas进行数据分析基础
使用Python和Pandas进行数据分析基础
70 5
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
48 2
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
49 2
|
1月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
2月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
67 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
2月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
50 1
|
3月前
|
数据挖掘 Python
Pandas实战(1):电商购物用户行为数据分析
Pandas实战(1):电商购物用户行为数据分析
132 1