Pandas这个名字源于panel data(面板数据,这是计量经济学中关于多维结构化数据集的一个术语),也是Python data analysis(Python数据分析)的简写。 Pandas处理以下三种数据结构:
系列(Series)。
数据帧(DataFrame)。
面板(Panel)。
这些数据结构都构建在NumPy数组之上。其中,Series为一维数组,与NumPy中的一维array类似,二者与Python基本的数据结构List也很相近。Series如今能保存不同的数据类型,包括字符串、布尔值、数字等;DataFrame是二维的表格型数据结构,其很多功能与R语言中的data.frame类似,可以将DataFrame理解为Series的容器;Panel是三维的数组,可以理解为DataFrame的容器。
Pandas提供了使我们能够快速、便捷地处理结构化数据的大量数据结构和函数,是数据科学中重要的Python库。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。它用来操作数据和分析数据,很适合不同类型的数据,如表格、有序时间序列、无序时间序列、矩阵等。
此外,Pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂而精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
资料来源:《Python机器学习》,文章链接:https://developer.aliyun.com/article/727175
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。