Pandas 2.2 中文官方教程和指南(一)(2)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
简介: Pandas 2.2 中文官方教程和指南(一)

Pandas 2.2 中文官方教程和指南(一)(1)https://developer.aliyun.com/article/1510592

性能依赖(推荐)

注意

强烈建议安装这些库,因为它们提供了速度改进,特别是在处理大数据集时。

可通过 pip install "pandas[performance]" 进行安装。

依赖 最低版本 pip 额外 注释
numexpr 2.8.4 performance 通过使用多核心、智能分块和缓存来加速某些数值操作
bottleneck 1.3.6 performance 通过使用专门的 cython 程序加速某些类型的 nan,实现大幅加速。
numba 0.56.4 performance 用于接受 engine="numba" 的操作的替代执行引擎,使用 JIT 编译器将 Python 函数转换为优化的机器码,使用 LLVM 编译器。
可视化

可通过 pip install "pandas[plot, output-formatting]" 进行安装。

依赖 最低版本 pip 额外 备注
matplotlib 3.6.3 plot 绘图库
Jinja2 3.1.2 output-formatting 使用 DataFrame.style 进行条件格式化
tabulate 0.9.0 output-formatting 以 Markdown 友好格式打印(参见 tabulate
计算

可通过 pip install "pandas[computation]" 进行安装。

依赖 最���版本 pip 额外 备注
SciPy 1.10.0 computation 各种统计函数
xarray 2022.12.0 computation 用于 N 维数据的类似 pandas API
Excel 文件

可通过 pip install "pandas[excel]" 进行安装。

依赖 最低版本 pip 额外 备注
xlrd 2.0.1 excel Excel 读取
xlsxwriter 3.0.5 excel Excel 写入
openpyxl 3.1.0 excel 用于 xlsx 文件的读取/写入
pyxlsb 1.0.10 excel 用于 xlsb 文件的读取
python-calamine 0.1.7 excel 用于 xls/xlsx/xlsb/ods 文件的读取
HTML

可通过 pip install "pandas[html]" 进行安装。

依赖 最低版本 pip 额外 备注
BeautifulSoup4 4.11.2 html 用于 read_html 的 HTML 解析器
html5lib 1.1 html 用于 read_html 的 HTML 解析器
lxml 4.9.2 html 用于 read_html 的 HTML 解析器

使用顶层 read_html() 函数需要以下库中的一种或多种组合:

警告

  • 如果安装了 BeautifulSoup4,则必须安装 lxmlhtml5lib 或两者都安装。仅安装 BeautifulSoup4 不会 使 read_html() 起作用。
  • 强烈建议阅读 HTML Table Parsing gotchas。它解释了关于安装和使用上述三个库的问题。
XML

使用 pip install "pandas[xml]" 可以安装。

依赖 最低版本 pip 额外 注释
lxml 4.9.2 xml 用于 read_xml 的 XML 解析器和用于 to_xml 的树生成器
SQL 数据库

传统驱动程序可以使用 pip install "pandas[postgresql, mysql, sql-other]" 进行安装。

依赖 最低版本 pip 额外 注释
SQLAlchemy 2.0.0 postgresql, mysql, sql-other 除了 sqlite 外其他数据库的 SQL 支持
psycopg2 2.9.6 postgresql SQLAlchemy 的 PostgreSQL 引擎
pymysql 1.0.2 mysql SQLAlchemy 的 MySQL 引擎
adbc-driver-postgresql 0.8.0 postgresql 用于 PostgreSQL 的 ADBC 驱动程序
adbc-driver-sqlite 0.8.0 sql-other 用于 SQLite 的 ADBC 驱动程序
其他数据源

使用 pip install "pandas[hdf5, parquet, feather, spss, excel]" 可以安装。

依赖 最低版本 pip 额外 注释
PyTables 3.8.0 hdf5 基于 HDF5 的读取 / 写入
blosc 1.21.3 hdf5 HDF5 的压缩;仅在 conda 上可用
zlib hdf5 HDF5 的压缩
fastparquet 2022.12.0 Parquet 的读取 / 写入(pyarrow 是默认的)
pyarrow 10.0.1 parquet, feather Parquet、ORC 和 feather 的读取 / 写入
pyreadstat 1.2.0 spss SPSS 文件(.sav)读取
odfpy 1.4.1 excel 读取 / 写入开放文档格式(.odf、.ods、.odt)

警告

  • 如果您想要使用 read_orc(),强烈建议使用 conda 安装 pyarrow。如果使用 pypi 安装了 pyarrow,可能会导致 read_orc() 失败,并且 read_orc() 不兼容 Windows 操作系统。
云端数据访问

使用 pip install "pandas[fss, aws, gcp]" 可以安装。

依赖 最低版本 pip 额外 注释
fsspec 2022.11.0 fss, gcp, aws 处理除了简单本地和 HTTP 之外的文件(s3fs、gcsfs 的必需依赖)
gcsfs 2022.11.0 gcp 谷歌云存储访问
pandas-gbq 0.19.0 gcp 谷歌大查询访问
s3fs 2022.11.0 aws 亚马逊 S3 访问
剪贴板

使用 pip install "pandas[clipboard]" 可以安装。

依赖 最低版本 pip 额外 注释
PyQt4/PyQt5 5.15.9 clipboard 剪贴板 I/O
qtpy 2.3.0 clipboard 剪贴板 I/O

注意

根据操作系统的不同,可能需要安装系统级包。在 Linux 上,要使剪贴板正常工作,您的系统必须安装其中一个 CLI 工具 xclipxsel

压缩

使用 pip install "pandas[compression]" 可以安装。

依赖 最低版本 pip 额外 注意
Zstandard 0.19.0 压缩 Zstandard 压缩
联盟标准

可以使用 pip install "pandas[consortium-standard]" 进行安装。

依赖 最低版本 pip 额外 注意
dataframe-api-compat 0.1.7 联盟标准 基于 pandas 的联盟标准兼容实现
性能依赖(推荐)

注:

强烈建议您安装这些库,因为它们可以提供速度改进,特别是在处理大型数据集时。

可以使用 pip install "pandas[performance]" 进行安装。

依赖 最低版本 pip 额外 注意
numexpr 2.8.4 性能 通过使用多核心以及智能分块和缓存来加速某些数值操作,从而实现大幅加速
bottleneck 1.3.6 性能 通过使用专门的 cython 程序例程来加速某些类型的 nan,从而实现大幅加速
numba 0.56.4 性能 对于接受 engine="numba" 的操作,使用将 Python 函数转换为优化的机器代码的 JIT 编译器执行引擎。
可视化

可以使用 pip install "pandas[plot, output-formatting]" 进行安装。

依赖 最低版本 pip 额外 注意
matplotlib 3.6.3 绘图 绘图库
Jinja2 3.1.2 输出格式化 使用 DataFrame.style 进行条件格式化
tabulate 0.9.0 输出格式化 以 Markdown 友好格式打印(参见 tabulate
计算

可以使用 pip install "pandas[computation]" 进行安装。

依赖 最低版本 pip 额外 注意
SciPy 1.10.0 计算 各种统计函数
xarray 2022.12.0 计算 用于 N 维数据的类似 pandas 的 API
Excel 文件

可以使用 pip install "pandas[excel]" 进行安装。

依赖 最低版本 pip 额外 注意
xlrd 2.0.1 excel 读取 Excel
xlsxwriter 3.0.5 excel 写入 Excel
openpyxl 3.1.0 excel 用于 xlsx 文件的读取/写入
pyxlsb 1.0.10 excel 读取 xlsb 文件
python-calamine 0.1.7 excel 读取 xls/xlsx/xlsb/ods 文件
HTML

可以使用 pip install "pandas[html]" 进行安装。

依赖 最低版本 pip 额外 注意
BeautifulSoup4 4.11.2 html 用于 read_html 的 HTML 解析器
html5lib 1.1 html 用于 read_html 的 HTML 解析器
lxml 4.9.2 html 用于 read_html 的 HTML 解析器

使用以下组合之一的库来使用顶层 read_html() 函数:

警告

  • 如果您安装了BeautifulSoup4,您必须安装lxml或者html5lib,或者两者都安装。只安装BeautifulSoup4 将无法使read_html()工作。
  • 非常鼓励阅读 HTML 表解析陷阱。它解释了围绕上述三个库的安装和使用的问题。
XML

可通过 pip install "pandas[xml]" 安装。

依赖项 最低版本 pip 额外 注释
lxml 4.9.2 xml read_xml 的 XML 解析器和 to_xml 的树构建器
SQL 数据库

使用 pip install "pandas[postgresql, mysql, sql-other]" 可以安装传统驱动程序。

依赖项 最低版本 pip 额外 注释
SQLAlchemy 2.0.0 postgresql, mysql, sql-other 除 SQLite 外的其他数据库的 SQL 支持
psycopg2 2.9.6 postgresql sqlalchemy 的 PostgreSQL 引擎
pymysql 1.0.2 mysql sqlalchemy 的 MySQL 引擎
adbc-driver-postgresql 0.8.0 postgresql PostgreSQL 的 ADBC 驱动程序
adbc-driver-sqlite 0.8.0 sql-other SQLite 的 ADBC 驱动程序
其他数据源

使用 pip install "pandas[hdf5, parquet, feather, spss, excel]" 可以安装。

依赖项 最低版本 pip 额外 注释
PyTables 3.8.0 hdf5 基于 HDF5 的读取/写入
blosc 1.21.3 hdf5 HDF5 的压缩;只在 conda 上可用
zlib hdf5 HDF5 的压缩
fastparquet 2022.12.0 Parquet 读取/写入(pyarrow 是默认的)
pyarrow 10.0.1 parquet, feather Parquet、ORC 和 feather 读取/写入
pyreadstat 1.2.0 spss SPSS 文件(.sav)读取
odfpy 1.4.1 excel Open document format(.odf, .ods, .odt)读取/写入

警告

  • 如果你想要使用 read_orc(),强烈建议使用 conda 安装 pyarrow。如果从 pypi 安装了 pyarrow,read_orc() 可能会失败,并且 read_orc() 不兼容 Windows 操作系统。
访问云端数据

使用pip install "pandas[fss, aws, gcp]"进行安装。

依赖 最低版本 pip 额外 备注
fsspec 2022.11.0 fss, gcp, aws 处理除简单本地和 HTTP 之外的文件(s3fs、gcsfs 的必需依赖)。
gcsfs 2022.11.0 gcp 谷歌云存储访问
pandas-gbq 0.19.0 gcp 谷歌大查询访问
s3fs 2022.11.0 aws 亚马逊 S3 访问
剪贴板

使用pip install "pandas[clipboard]"进行安装。

依赖 最低版本 pip 额外 备注
PyQt4/PyQt5 5.15.9 clipboard 剪贴板 I/O
qtpy 2.3.0 clipboard 剪贴板 I/O

注意

根据操作系统的不同,可能需要安装系统级软件包。在 Linux 上,剪贴板要操作,系统上必须安装xclipxsel中的一个 CLI 工具。

压缩

使用pip install "pandas[compression]"进行安装。

依赖 最低版本 pip 额外 备注
Zstandard 0.19.0 compression Zstandard 压缩
联盟标准

使用pip install "pandas[consortium-standard]"进行安装。

依赖 最低版本 pip 额外 备注
dataframe-api-compat 0.1.7 consortium-standard 基于 pandas 的符合联盟标准的实现

包概述

原文:pandas.pydata.org/docs/getting_started/overview.html

pandas 是一个Python包,提供快速、灵活和表达性强的数据结构,旨在使处理“关系”或“标记”数据变得简单和直观。它旨在成为在 Python 中进行实际、现实世界数据分析的基本高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大和灵活的开源数据分析/操作工具。它已经在这个目标的道路上取得了很大进展。

pandas 非常适合许多不同类型的数据:

  • 具有异构类型列的表格数据,如 SQL 表或 Excel 电子表格

  • 有序和无序(不一定是固定频率)的时间序列数据

  • 具有行和列标签的任意矩阵数据(同质或异质类型)

  • 任何其他形式的观测/统计数据集。数据不需要被标记,也可以放入 pandas 数据结构中。

pandas 的两个主要数据结构,Series(1 维)和DataFrame(2 维),处理金融、统计学、社会科学和许多工程领域的绝大多数典型用例。对于 R 用户,DataFrame提供了 R 的data.frame提供的一切,以及更多。pandas 建立在NumPy之上,旨在与许多其他第三方库在科学计算环境中很好地集成。

以下是 pandas 擅长的一些事情:

  • 处理浮点和非浮点数据中的缺失数据(表示为 NaN)非常容易

  • 大小可变性:可以从 DataFrame 和更高维对象中插入和删除

  • 自动和显式的数据对齐:对象可以显式地与一组标签对齐,或者用户可以简单地忽略标签,让SeriesDataFrame等在计算中自动为您对齐数据

  • 强大、灵活的分组功能,可以对数据集执行分割-应用-合并操作,用于聚合和转换数据

  • 使将其他 Python 和 NumPy 数据结构中的不规则、具有不同索引的数据轻松转换为 DataFrame 对象变得容易

  • 对大型数据集进行智能基于标签的切片高级索引子集操作

  • 直观的合并连接数据集

  • 灵活的数据集重塑和透视

  • 轴的分层标签(每个刻度可能有多个标签)

  • 用于从平面文件(CSV 和分隔符)、Excel 文件、数据库加载数据以及从超快速HDF5 格式保存/加载数据的强大 IO 工具

  • 时间序列特定功能:日期范围生成和频率转换,滑动窗口统计,日期移动和滞后。

这些原则中的许多都是为了解决在使用其他语言/科学研究环境时经常遇到的缺点。对于数据科学家来说,处理数据通常分为多个阶段:整理和清理数据,分析/建模,然后将分析结果组织成适合绘图或表格显示的形式。pandas 是所有这些任务的理想工具。

其他一些注意事项

  • pandas 速度快。许多底层算法部分在Cython代码中已经得到了大量调整。但是,与其他任何事物一样,一般化通常会牺牲性能。因此,如果您专注于应用程序的某一特性,您可能能够创建一个更快的专业工具。

  • pandas 是statsmodels的依赖项,使其成为 Python 统计计算生态系统中的重要部分。

  • pandas 已在金融应用程序中广泛使用。

数据结构

维度 名称 描述
1 Series 一维标记同构类型数组
2 DataFrame 通用的二维标记、可变大小的表格结构,列的类型可能异构

为什么需要多个数据结构?

最好将 pandas 数据结构视为适用于低维数据的灵活容器。例如,DataFrame 是 Series 的容器,而 Series 是标量的容器。我们希望能够以类似字典的方式向这些容器中插入和删除对象。

另外,我们希望常见 API 函数的默认行为能够考虑到时间序列和横截面数据集的典型方向。当使用 N 维数组(ndarrays)存储二维和三维数据时,用户在编写函数时需要考虑数据集的方向;轴被认为是更或多或少等效的(除非 C- 或 Fortran-连续性对性能很重要)。在 pandas 中,轴旨在为数据提供更多的语义含义;即,对于特定的数据集,很可能有一种“正确”的方式来定位数据。因此,目标是减少编写下游函数中的数据转换所需的心理努力。

例如,对于表格数据(DataFrame),更有语义的方法是考虑索引(行)和,而不是轴 0 和轴 1。因此,通过 DataFrame 的列进行迭代将产生更可读的代码:

for col in df.columns:
    series = df[col]
    # do something with series 

数据的可变性和复制

所有 pandas 数据结构都是值可变的(它们包含的值可以被改变),但不总是大小可变的。Series 的长度不能改变,但是,例如,可以在 DataFrame 中插入列。然而,绝大多数方法会产生新对象并保持输入数据不变。通常情况下,我们喜欢偏向不可变性

获取支持

pandas 问题和想法的第一站是GitHub Issue Tracker。如果您有一般问题,pandas 社区专家可以通过Stack Overflow回答。

社区

今天,pandas 得到全球志同道合的个人社区的积极支持,他们贡献了宝贵的时间和精力,帮助使开源 pandas 成为可能。感谢所有贡献者

如果您有兴趣贡献,请访问贡献指南。

pandas 是NumFOCUS赞助的项目。这将有助于确保 pandas 作为世界一流开源项目的成功,并使捐赠给该项目成为可能。

项目治理

pandas 项目自 2008 年成立以来一直在非正式使用的治理流程在项目治理文件中得到了正式化。这些文件澄清了决策的方式以及我们社区的各个元素如何互动,包括开源协作开发与可能由营利性或非营利性实体资助的工作之间的关系。

Wes McKinney 是终身仁慈独裁者(BDFL)。

开发团队

核心团队成员列表和更详细信息可在pandas 网站上找到。

机构合作伙伴

关于当前机构合作伙伴的信息可在pandas 网站页面上找到。

许可证

BSD 3-Clause License
Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.
Copyright (c) 2011-2023, Open source contributors.
Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:
* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.
* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.
* Neither the name of the copyright holder nor the names of its
  contributors may be used to endorse or promote products derived from
  this software without specific prior written permission.
THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 

数据结构

维度 名称 描述
1 Series 1D 标记同质类型数组
2 DataFrame 通用的二维标记,大小可变的表格结构,列可能具有异构类型

为什么需要多个数据结构?

最好将 pandas 数据结构视为低维数据的灵活容器。例如,DataFrame 是 Series 的容器,而 Series 是标量的容器。我们希望能够以类似字典的方式插入和删除这些容器中的对象。

此外,我们希望常见 API 函数有合理的默认行为,考虑到时间序列和横截面数据集的典型方向。当使用 N 维数组(ndarrays)存储 2 维和 3 维数据时,用户需要考虑数据集的方向来编写函数;轴被认为是更或多或少等价的(除非 C 或 Fortran 连续性对性能有影响)。在 pandas 中,轴旨在为数据提供更多语义意义;即,对于特定数据集,可能有一种“正确”的方式来定位数据。因此,目标是减少编写下游函数中数据转换所需的心智努力量。

例如,对于表格数据(DataFrame),更有语义的方式是考虑索引(行)和,而不是轴 0 和轴 1。因此,通过 DataFrame 的列进行迭代会导致更易读的代码:

for col in df.columns:
    series = df[col]
    # do something with series 

为什么会有多个数据结构?

最好的方式是将 pandas 数据结构视为低维数据的灵活容器。例如,DataFrame 是 Series 的容器,而 Series 是标量的容器。我们希望能够以类似字典的方式向这些容器中插入和移除对象。

此外,我们希望常见 API 函数有合理的默认行为,考虑到时间序列和横截面数据集的典型方向。当使用 N 维数组(ndarrays)存储 2 维和 3 维数据时,用户需要考虑数据集的方向来编写函数;轴被认为是更或多或少等价的(除非 C 或 Fortran 连续性对性能有影响)。在 pandas 中,轴旨在为数据提供更多语义意义;即,对于特定数据集,可能有一种“正确”的方式来定位数据。因此,目标是减少编写下游函数中数据转换所需的心智努力量。

例如,对于表格数据(DataFrame),更有语义的方式是考虑索引(行)和,而不是轴 0 和轴 1。因此,通过 DataFrame 的列进行迭代会导致更易读的代码:

for col in df.columns:
    series = df[col]
    # do something with series 

可变性和数据的复制

所有的 pandas 数据结构都是值可变的(它们包含的值可以被改变),但并非总是大小可变的。Series 的长度不能被改变,但是,例如,可以在 DataFrame 中插入列。然而,绝大多数方法会产生新对象,并保持输入数据不变。一般来说,我们喜欢偏向不可变性,在合适的情况下。

获取支持

pandas 的问题和想法的第一站是GitHub Issue Tracker。如果您有一般问题,pandas 社区专家可以通过Stack Overflow回答。

社区

今天,pandas 受到全球志同道合的个人社区的积极支持,他们贡献了宝贵的时间和精力来帮助使开源 pandas 成为可能。感谢我们所有的贡献者

如果您有兴趣贡献,请访问贡献指南。

pandas 是一个NumFOCUS赞助的项目。这将有助于确保 pandas 作为一个世界一流的开源项目的成功,并使捐赠给该项目成为可能。

项目治理

pandas 项目自 2008 年成立以来一直使用的治理流程已在项目治理文件中正式规范化。这些文件澄清了如何做出决策以及我们社区各个元素之间的互动方式,包括开源协作开发与可能由营利性或非营利性实体资助的工作之间的关系。

Wes McKinney 是终身仁慈独裁者(BDFL)。

开发团队

核心团队成员列表和更详细的信息可以在pandas 网站上找到。

机构合作伙伴

当前机构合作伙伴的信息可以在pandas 网站页面上找到。

许可证

BSD 3-Clause License
Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.
Copyright (c) 2011-2023, Open source contributors.
Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:
* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.
* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.
* Neither the name of the copyright holder nor the names of its
  contributors may be used to endorse or promote products derived from
  this software without specific prior written permission.
THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 

入门教程

原文:pandas.pydata.org/docs/getting_started/intro_tutorials/index.html

  • pandas 处理什么类型的数据?
  • 如何读取和写入表格数据?
  • 如何选择 DataFrame 的子集?
  • 如何在 pandas 中创建图表?
  • 如何从现有列派生新列
  • 如何计算摘要统计信息
  • 如何重新设计表格布局
  • 如何合并来自多个表的数据
  • 如何轻松处理时间序列数据
  • 如何操作文本数据

pandas 处理什么类型的数据?

原文:pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html

  • 我想开始使用 pandas
In [1]: import pandas as pd 
  • 要加载 pandas 包并开始使用它,请导入该包。 社区约定的 pandas 别名是pd,因此假定将 pandas 加载为pd是所有 pandas 文档的标准做法。

Pandas 2.2 中文官方教程和指南(一)(3)https://developer.aliyun.com/article/1510594

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3月前
|
存储 JSON 数据格式
Pandas 使用教程 CSV - CSV 转 JSON
Pandas 使用教程 CSV - CSV 转 JSON
30 0
|
3月前
|
JSON 数据格式 Python
Pandas 使用教程 JSON
Pandas 使用教程 JSON
36 0
|
3月前
|
SQL 数据采集 JSON
Pandas 使用教程 Series、DataFrame
Pandas 使用教程 Series、DataFrame
53 0
|
5月前
|
数据采集 存储 数据可视化
Pandas高级教程:数据清洗、转换与分析
Pandas是Python的数据分析库,提供Series和DataFrame数据结构及数据分析工具,便于数据清洗、转换和分析。本教程涵盖Pandas在数据清洗(如缺失值、重复值和异常值处理)、转换(数据类型转换和重塑)和分析(如描述性统计、分组聚合和可视化)的应用。通过学习Pandas,用户能更高效地处理和理解数据,为数据分析任务打下基础。
559 3
|
6月前
|
索引 Python
Pandas 2.2 中文官方教程和指南(一)(4)
Pandas 2.2 中文官方教程和指南(一)
53 0
|
6月前
|
存储 SQL JSON
Pandas 2.2 中文官方教程和指南(一)(3)
Pandas 2.2 中文官方教程和指南(一)
86 0
|
6月前
|
XML 关系型数据库 MySQL
Pandas 2.2 中文官方教程和指南(一)(1)
Pandas 2.2 中文官方教程和指南(一)
154 0
|
6月前
|
C++ 索引 Python
Pandas 2.2 中文官方教程和指南(五)(4)
Pandas 2.2 中文官方教程和指南(五)
45 0
|
6月前
|
索引 Python
Pandas 2.2 中文官方教程和指南(五)(3)
Pandas 2.2 中文官方教程和指南(五)
42 0
|
6月前
|
SQL API 数据格式
Pandas 2.2 中文官方教程和指南(五)(2)
Pandas 2.2 中文官方教程和指南(五)
49 0