Pandas vs Spark:数据读取篇

简介: 按照前文所述,本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取,所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。

640.png

数据读取是所有数据处理分析的第一步,而Pandas和Spark作为常用的计算框架,都对常用的数据源读取内置了相应接口。总体而言,数据读取可分为从文件读取和从数据库读取两大类,其中数据库读取包含了主流的数据库,从文件读取又区分为不同的文件类型。基于此,本文首先分别介绍Pandas和Spark常用的数据读取API,而后进行简要对比分析。


01 Pandas常用数据读取方法


Pandas内置了丰富的数据读取API,且都是形如pd.read_xxx格式,通过对pd顶级接口方法进行过滤,得到Pandas中支持的数据读取API列表如下:


640.png

  过滤pandas中以read开头的方法名称


按照个人使用频率,对主要API接口介绍如下:

  • read_sql:用于从关系型数据库中读取数据,涵盖了主流的常用数据库支持,一般来讲pd.read_sql的第一个参数是SQL查询语句,第二个参数是数据库连接驱动,所以从这个角度讲read_sql相当于对各种数据库读取方法的二次包装和集成;
  • read_csv:其使用频率不亚于read_sql,而且有时考虑数据读取效率问题甚至常常会首先将数据从数据库中转储为csv文件,而后再用read_csv获取。这一转储的过程目的有二:一是提高读取速度,二是降低数据读取过程中的运行内存占用(实测同样的数据转储为csv文件后再读取,内存占用会更低一些);
  • read_excel:其实也是对xlrd库的二次封装,用来读取Excel文件会更加方便,但日常使用不多;
  • read_json:json文件本质上也属于结构化数据,所以也可将其读取为DataFrame类型,但如果嵌套层级差别较大的话,读取起来不是很合适;
  • read_html:这应该算是Pandas提供的一个小彩蛋了,表面上看它就是一个用于读取html文件中数据表格的接口,但实际上有人却拿他来干着爬虫的事情……
  • read_clipboard:这可以算是Pandas提供的另一个小彩蛋,用于从剪切板中读取结构化数据到DataFrame中。至于数据是如何到剪切板中的,那方式可能就多种多样了,比如从数据库中复制、从excel或者csv文件中复制,进而可以方便的用于读取小型的结构化数据,而不用大费周章的连接数据库或者找到文件路径!
  • read_table:可用于读取txt文件,使用频率不高;
  • read_parquet:Parquet是大数据中的标志性文件,Pandas也对其予以支持,但依赖还是很复杂的;
  • 另外,还有ocr和pickle等文件类型,其中OCR是Hive中的标准数据文件类型,与Parquet类似,也是列式存储,虽然Pandas也提供支持,但既然是大数据,其实与Pandas已经关系不大了;而pickle则是python中常用的序列化存储格式。


在以上方法中,重点掌握和极为常用的数据读取方法当属read_sql和read_csv两种,尤其是read_csv不仅效率高,而且支持非常丰富的参数设置,例如支持跳过指定行数(skip_rows)后读取一定行数(nrows)的数据,就是这个小技巧使得曾经小内存的我也能得以处理大数据,着实欣喜!


02 Spark常用数据读取方法


与Pandas类似,Spark也提供了丰富的数据读取API,对于常用的数据读取方法也都给予了非常好的支持。这里以Scala Spark为例,通过tab键补全命令查看常用的数据读取方法如下:


640.png

       通过spark-shell的tab键补全得到spark.read.的系列方法


可以明显注意到Spark的数据读取API与Pandas接口名称的一个显著区别是:Spark采用二级接口的方式,即首先调用read属性获取读接口的类,然后再区分数据源细分为各种类型;而Pandas则是直接提供了read_各数据类型的API。仍然按照使用频率来分:


  • spark.read.parquet:前面已经提到,parquet是大数据中的标准文件存储格式,也是Apache的顶级项目,相较于OCR而言,Parquet更为流行和通用。Parquet的优势也不少,包括内置了数据Schema、高效的压缩存储等;
  • spark.read.jdbc:通过jdbc提供了对读取各主流数据库的支持,由于其实际上也是一个类,所以相应的参数设置都要依托option方法来进行传递,最后通过执行load实现数据的读取。但不得不说,spark内置的一些默认参数相较于Pandas而言合理性要差很多,例如fetchSize默认为10,这对于大数据读取而言简直是致命的打击,谁用谁知道……
  • spark.read.csv:spark对于csv文件也给予了很好的支持,但参数配置相较于Pandas而言则要逊色很多
  • spark.read.textFile:典型的txt文件读取方式,相信很多人的一个Spark项目word count大多是从读取txt文件开始的吧,不过对于个人而言好像也仅仅是在写word count时才用到了read.textFile。
  • 其他也有read.json和read.orc等,但使用频率不高。


如果说Pandas读取数据库是最为常用的方法,那么Spark其实最为常用的当属Parquet,毕竟Parquet文件与Spark等同为Apache顶级项目,而且更具大数据特色,称得上是大数据文件存储的业界规范!


03 小结


整体来看,Pandas和Spark在数据读取方面都提供了丰富的接口,支持的数据源类型也大体相当。但对参数支持和易用性方面,Pandas对数据库和csv文件相对更加友好,而Spark与Parquet文件格式则更为搭配。虽然同为数据计算框架,但Pandas是单机计算模式,而Spark则是分布式计算,所以不同的数据量级也自然决定了数据源的侧重点不同,本无高下之分,只能说各有千秋。


640.png



相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
14 2
|
1月前
|
数据格式 Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数转换数据格式。示例代码展示了如何通过`melt()`转为长格式,再用`pivot()`恢复为宽格式。输入数据是包含'Name'和'Age'列的DataFrame,最终结果经过转换后呈现出不同的布局。
40 6
|
1月前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名?
Pandas在Python中提供数据排序和排名功能。使用`sort_values()`进行排序,如`df.sort_values(by='A', ascending=False)`进行降序排序;用`rank()`进行排名,如`df['A'].rank(ascending=False)`进行降序排名。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`。
24 6
|
1月前
|
索引 Python
如何使用Python的Pandas库进行数据合并和拼接?
【2月更文挑战第28天】【2月更文挑战第103篇】如何使用Python的Pandas库进行数据合并和拼接?
|
1月前
|
索引 Python
如何在Python中,Pandas库实现对数据的时间序列分析?
Pandas在Python中提供强大的时间序列分析功能,包括:1) 使用`pd.date_range()`创建时间序列;2) 通过`pd.DataFrame()`将时间序列转为DataFrame;3) `set_index()`设定时间列作为索引;4) `resample()`实现数据重采样(如按月、季度);5) `rolling()`进行移动窗口计算,如计算移动平均;6) 使用`seasonal_decompose()`进行季节性调整。这些工具适用于各种时间序列分析场景。
35 0
|
3月前
|
索引 Python
Python 教程之 Pandas(11)—— 索引和选择 series 的数据
Python 教程之 Pandas(11)—— 索引和选择 series 的数据
33 0
Python 教程之 Pandas(11)—— 索引和选择 series 的数据
|
2月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
57 2
|
2天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
10 0
|
2天前
|
索引 Python
如何使用Pandas进行数据合并?
Pandas提供`merge()`, `join()`, `concat()`等方法进行数据合并。基本步骤包括导入pandas库、创建或加载DataFrame,然后调用这些方法合并数据。示例中展示了如何使用`merge()`和`join()`:创建两个DataFrame `df1`和`df2`,通过`merge()`基于索引合并,以及`join()`进行外连接合并。
10 0
|
4天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行或列;3) `fillna()`用常数、前后值填充;4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。
38 9