【Pandas数据分析2】导入数据

简介: 【Pandas数据分析2】导入数据

二、导入数据

1、导入Excel文件

导入.xls.xlsx文件:

pd.read_excel(io, sheet_name, header)

参数说明:

  • io:.xls.xlsx文件路径或类文件对象
  • sheet_name:工作表,取值如下表所示
  • header:默认值为0,取第一行的值为列名,数据为除列名以外的数据。如果数据不包含列名,则设置header=None
说明
sheet_name=0 第一个Sheet页中的数据作为DataFrame对象
sheet_name=1 第二个Sheet页中的数据作为DataFrame对象
sheet_name=‘Sheet1’ 名称为’Sheet1’的Sheet页中的数据作为DataFrame对象
sheet_name=[0, 1, ‘Sheet3’] 第一个、第二个和名称为Sheet3的Sheet页中的数据作为DataFrame对象
sheet_name=None 读取所有工作表

1.1 导入全部数据

import pandas as pd
df = pd.read_excel('../data/京东鞋子评论信息.xlsx', sheet_name='码数分析', header=None)
print(df)
0  1    2
0  39  2  0.2
1  40  1  0.1
2  42  4  0.4
3  43  2  0.2
4  45  1  0.1

1.2 导入一列数据

import pandas as pd
df = pd.read_excel('../data/学员成绩统计.xlsx', sheet_name='及格成员名单', usecols=[1])
print(df)
姓名
0   刘磊
1   于爽
2   丁宁
3  高春艳
4   李帅
5   赵颖
6  杨春言
7  吴贤执
8   朱彦
9   李俊

1.3 导入多列数据

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('../data/学员成绩统计.xlsx', sheet_name='及格成员名单', usecols=['姓名', '总成绩'])
print(df)
姓名  总成绩
0    刘磊      71
1    于爽      69
2    丁宁      65
3  高春艳      67
4    李帅      73
5    赵颖      79
6  杨春言      65
7  吴贤执      45
8    朱彦      64
9    李俊      68

2、导入CSV文件

pd.read_csv(filepath_or_buffer, sep=',', header, encoding=None)

参数说明:

  • filepath_or_buffer:字符串。文件路径,也可以是URL链接
  • sep:字符串。分隔符
  • header:指定作为列名的行,默认值为0。即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None
  • encoding:字符串,默认值为None。文件的编码格式

import pandas as pd
df = pd.read_csv('../data/京东鞋子评论信息.csv', sep=',', encoding='gbk')
print(df.head())
评论内容             评论时间 购买颜色  鞋码
0           清爽不油腻,百搭百配小白鞋。我就喜欢这一款了。  2021/7/26 11:57  黑白兰  39
1                          和想象中的一样好  2022/3/27 19:15   灰黑  42
2       因为这是跑鞋,所以它的抓地能力被做的很有效,质感很好。  2021/8/24 22:03  黑白灰  40
3  鞋子质量很不错,看起来很舒服,但是鞋子容易弄脏,好在网面不是白色  2022/2/26 22:34  白灰绿  43
4                              挺新颖的  2021/9/25 14:31  黑白灰  42

3、导入txt文件

pd.read_csv(filepath_or_buffer, sep='\t', header, encoding=None)

import pandas as pd
df = pd.read_csv('../data/rating.txt', sep='\t', encoding='gbk', header=None)
print(df.head())
0    1  2         3
0  196  242  9  88125094
1  852  456  8  74125896
2  423  521  2  15981236
3  123  125  0  12345695
4  147  741  4  14752385

4、导入HTML网页

pd.read_html(io, match='.+', flavor, header, encoding)

参数说明:

  • io:字符串。文件路径,可以是URL链接,网址不接受https
  • match:正则表达式
  • flavor:解释器,默认为’lxml’
  • header:指定列标题所在的行
  • encoding:文件的编码格式

链接:http://www.espn.com/nba/salaries

import pandas as pd
url = 'http://www.espn.com/nba/salaries'
df = pd.DataFrame()  # 创建一个空的DataFrame对象
# DataFrame添加数据
df = df.append(pd.read_html(url, header=0))
print(df)
# 保存成CSV文件
df.to_csv('../data/nba_salaries.csv', index=False)
RK                         NAME                    TEAM       SALARY
0    1            Stephen Curry, PG   Golden State Warriors  $48,070,014
1    2        Russell Westbrook, PG      Los Angeles Lakers  $47,063,478
...
10  RK                         NAME                    TEAM       SALARY
...
21  RK                         NAME                    TEAM       SALARY
...
32  RK                         NAME                    TEAM       SALARY
...
41  39           Gordon Hayward, SF       Charlotte Hornets  $30,075,000
42  40        Jaren Jackson Jr., PF       Memphis Grizzlies  $28,946,605

4.1 补充

在读取HTML网页时,当使用F12(或鼠标右键,点击检查)查看网页源代码时,具有table标签时,才可以读取,如下图所示:

目录
相关文章
|
7天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
22 2
|
6天前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas高级
在上一篇博文中,我们介绍了Python数据分析中NumPy和Pandas的基础知识。本文将深入探讨NumPy和Pandas的高级功能,并通过一个综合详细的例子展示这些高级功能的应用。
|
7天前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas基础
本文详细介绍了 Python 中两个重要的数据分析库 NumPy 和 Pandas 的基础知识,并通过一个综合的示例展示了如何使用这些库进行数据处理和分析。希望通过本篇博文,能更好地理解和掌握 NumPy 和 Pandas 的基本用法,为后续的数据分析工作打下坚实的基础。
|
5天前
|
存储 数据可视化 数据挖掘
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
13 0
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
【7月更文挑战第12天】Python的Pandas和NumPy库助力高效数据处理。Pandas用于数据清洗,如填充缺失值和转换类型;NumPy则擅长数组运算,如元素级加法和矩阵乘法。结合两者,可做复杂数据分析和特征工程,如产品平均销售额计算及销售额标准化。Pandas的时间序列功能,如移动平均计算,进一步增强分析能力。掌握这两者高级技巧,能提升数据分析质量和效率。
31 4
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
48 3
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
利用Python和Pandas库构建高效的数据分析流程
在数据驱动的时代,数据分析已成为企业决策的关键环节。本文介绍如何利用Python编程语言及其强大的数据分析库Pandas,构建一套高效且可扩展的数据分析流程。与常规的数据分析流程不同,本文不仅涵盖数据加载、清洗、转换等基础步骤,还强调数据可视化、模型探索与评估等高级分析技巧,并通过实际案例展示如何在Python中实现这些步骤,为数据分析师提供一套完整的数据分析解决方案。
|
1月前
|
数据采集 数据挖掘 数据处理
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
【7月更文挑战第14天】Python的Pandas和NumPy库是数据分析的核心工具。Pandas以其高效的数据处理能力,如分组操作和自定义函数应用,简化了数据清洗和转换。NumPy则以其多维数组和广播机制实现快速数值计算。两者协同工作,如在DataFrame与NumPy数组间转换进行预处理,提升了数据分析的效率和精度。掌握这两者的高级功能是提升数据科学技能的关键。**
25 0
|
1月前
|
数据挖掘 数据处理 决策智能
Python 数据分析工具箱:深挖 Pandas 与 NumPy 高级功能,驱动智能决策
【7月更文挑战第12天】Python的Pandas和NumPy是数据分析的基石。Pandas提供灵活的数据结构如DataFrame,用于高效处理关系型数据,而NumPy则以多维数组和科学计算功能著称。两者结合,支持数据合并(如`pd.merge`)、时间序列分析(`pd.to_datetime`)和高级数组运算。通过掌握它们的高级特性,能提升数据分析效率,应用于各领域,如金融风险评估、市场分析和医疗预测,助力数据驱动的决策。学习和熟练运用Pandas与NumPy是成为出色数据分析师的关键。
29 0

热门文章

最新文章