Pandas vs Spark：数据读取篇-阿里云开发者社区

Pandas vs Spark：数据读取篇

2022-05-27 366

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 按照前文所述，本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取，所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。

数据读取是所有数据处理分析的第一步，而Pandas和Spark作为常用的计算框架，都对常用的数据源读取内置了相应接口。总体而言，数据读取可分为从文件读取和从数据库读取两大类，其中数据库读取包含了主流的数据库，从文件读取又区分为不同的文件类型。基于此，本文首先分别介绍Pandas和Spark常用的数据读取API，而后进行简要对比分析。

01 Pandas常用数据读取方法

Pandas内置了丰富的数据读取API，且都是形如pd.read_xxx格式，通过对pd顶级接口方法进行过滤，得到Pandas中支持的数据读取API列表如下：

过滤pandas中以read开头的方法名称

按照个人使用频率，对主要API接口介绍如下：

read_sql：用于从关系型数据库中读取数据，涵盖了主流的常用数据库支持，一般来讲pd.read_sql的第一个参数是SQL查询语句，第二个参数是数据库连接驱动，所以从这个角度讲read_sql相当于对各种数据库读取方法的二次包装和集成；
read_csv：其使用频率不亚于read_sql，而且有时考虑数据读取效率问题甚至常常会首先将数据从数据库中转储为csv文件，而后再用read_csv获取。这一转储的过程目的有二：一是提高读取速度，二是降低数据读取过程中的运行内存占用（实测同样的数据转储为csv文件后再读取，内存占用会更低一些）；
read_excel：其实也是对xlrd库的二次封装，用来读取Excel文件会更加方便，但日常使用不多；
read_json：json文件本质上也属于结构化数据，所以也可将其读取为DataFrame类型，但如果嵌套层级差别较大的话，读取起来不是很合适；
read_html：这应该算是Pandas提供的一个小彩蛋了，表面上看它就是一个用于读取html文件中数据表格的接口，但实际上有人却拿他来干着爬虫的事情……
read_clipboard：这可以算是Pandas提供的另一个小彩蛋，用于从剪切板中读取结构化数据到DataFrame中。至于数据是如何到剪切板中的，那方式可能就多种多样了，比如从数据库中复制、从excel或者csv文件中复制，进而可以方便的用于读取小型的结构化数据，而不用大费周章的连接数据库或者找到文件路径！
read_table：可用于读取txt文件，使用频率不高；
read_parquet：Parquet是大数据中的标志性文件，Pandas也对其予以支持，但依赖还是很复杂的；
另外，还有ocr和pickle等文件类型，其中OCR是Hive中的标准数据文件类型，与Parquet类似，也是列式存储，虽然Pandas也提供支持，但既然是大数据，其实与Pandas已经关系不大了；而pickle则是python中常用的序列化存储格式。

在以上方法中，重点掌握和极为常用的数据读取方法当属read_sql和read_csv两种，尤其是read_csv不仅效率高，而且支持非常丰富的参数设置，例如支持跳过指定行数(skip_rows)后读取一定行数(nrows)的数据，就是这个小技巧使得曾经小内存的我也能得以处理大数据，着实欣喜！

02 Spark常用数据读取方法

与Pandas类似，Spark也提供了丰富的数据读取API，对于常用的数据读取方法也都给予了非常好的支持。这里以Scala Spark为例，通过tab键补全命令查看常用的数据读取方法如下：

通过spark-shell的tab键补全得到spark.read.的系列方法

可以明显注意到Spark的数据读取API与Pandas接口名称的一个显著区别是：Spark采用二级接口的方式，即首先调用read属性获取读接口的类，然后再区分数据源细分为各种类型；而Pandas则是直接提供了read_各数据类型的API。仍然按照使用频率来分：

spark.read.parquet：前面已经提到，parquet是大数据中的标准文件存储格式，也是Apache的顶级项目，相较于OCR而言，Parquet更为流行和通用。Parquet的优势也不少，包括内置了数据Schema、高效的压缩存储等；
spark.read.jdbc：通过jdbc提供了对读取各主流数据库的支持，由于其实际上也是一个类，所以相应的参数设置都要依托option方法来进行传递，最后通过执行load实现数据的读取。但不得不说，spark内置的一些默认参数相较于Pandas而言合理性要差很多，例如fetchSize默认为10，这对于大数据读取而言简直是致命的打击，谁用谁知道……
spark.read.csv：spark对于csv文件也给予了很好的支持，但参数配置相较于Pandas而言则要逊色很多
spark.read.textFile：典型的txt文件读取方式，相信很多人的一个Spark项目word count大多是从读取txt文件开始的吧，不过对于个人而言好像也仅仅是在写word count时才用到了read.textFile。
其他也有read.json和read.orc等，但使用频率不高。

如果说Pandas读取数据库是最为常用的方法，那么Spark其实最为常用的当属Parquet，毕竟Parquet文件与Spark等同为Apache顶级项目，而且更具大数据特色，称得上是大数据文件存储的业界规范！

03 小结

整体来看，Pandas和Spark在数据读取方面都提供了丰富的接口，支持的数据源类型也大体相当。但对参数支持和易用性方面，Pandas对数据库和csv文件相对更加友好，而Spark与Parquet文件格式则更为搭配。虽然同为数据计算框架，但Pandas是单机计算模式，而Spark则是分布式计算，所以不同的数据量级也自然决定了数据源的侧重点不同，本无高下之分，只能说各有千秋。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps