Pandas 2.2 中文官方教程和指南(一)(1)https://developer.aliyun.com/article/1510592
性能依赖(推荐)
注意
强烈建议安装这些库,因为它们提供了速度改进,特别是在处理大数据集时。
可通过 pip install "pandas[performance]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注释 |
numexpr | 2.8.4 | performance | 通过使用多核心、智能分块和缓存来加速某些数值操作 |
bottleneck | 1.3.6 | performance | 通过使用专门的 cython 程序加速某些类型的 nan ,实现大幅加速。 |
numba | 0.56.4 | performance | 用于接受 engine="numba" 的操作的替代执行引擎,使用 JIT 编译器将 Python 函数转换为优化的机器码,使用 LLVM 编译器。 |
可视化
可通过 pip install "pandas[plot, output-formatting]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
matplotlib | 3.6.3 | plot | 绘图库 |
Jinja2 | 3.1.2 | output-formatting | 使用 DataFrame.style 进行条件格式化 |
tabulate | 0.9.0 | output-formatting | 以 Markdown 友好格式打印(参见 tabulate) |
计算
可通过 pip install "pandas[computation]"
进行安装。
依赖 | 最���版本 | pip 额外 | 备注 |
SciPy | 1.10.0 | computation | 各种统计函数 |
xarray | 2022.12.0 | computation | 用于 N 维数据的类似 pandas API |
Excel 文件
可通过 pip install "pandas[excel]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
xlrd | 2.0.1 | excel | Excel 读取 |
xlsxwriter | 3.0.5 | excel | Excel 写入 |
openpyxl | 3.1.0 | excel | 用于 xlsx 文件的读取/写入 |
pyxlsb | 1.0.10 | excel | 用于 xlsb 文件的读取 |
python-calamine | 0.1.7 | excel | 用于 xls/xlsx/xlsb/ods 文件的读取 |
HTML
可通过 pip install "pandas[html]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
BeautifulSoup4 | 4.11.2 | html | 用于 read_html 的 HTML 解析器 |
html5lib | 1.1 | html | 用于 read_html 的 HTML 解析器 |
lxml | 4.9.2 | html | 用于 read_html 的 HTML 解析器 |
使用顶层 read_html()
函数需要以下库中的一种或多种组合:
- BeautifulSoup4 和 html5lib
- BeautifulSoup4 和 lxml
- BeautifulSoup4 和 html5lib 和 lxml
- 仅 lxml,尽管请参阅 HTML 表格解析 了解为什么您可能应该 不要 采用这种方法。
警告
- 如果安装了 BeautifulSoup4,则必须安装 lxml 或 html5lib 或两者都安装。仅安装 BeautifulSoup4 不会 使
read_html()
起作用。 - 强烈建议阅读 HTML Table Parsing gotchas。它解释了关于安装和使用上述三个库的问题。
XML
使用 pip install "pandas[xml]"
可以安装。
依赖 | 最低版本 | pip 额外 | 注释 |
lxml | 4.9.2 | xml | 用于 read_xml 的 XML 解析器和用于 to_xml 的树生成器 |
SQL 数据库
传统驱动程序可以使用 pip install "pandas[postgresql, mysql, sql-other]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注释 |
SQLAlchemy | 2.0.0 | postgresql, mysql, sql-other | 除了 sqlite 外其他数据库的 SQL 支持 |
psycopg2 | 2.9.6 | postgresql | SQLAlchemy 的 PostgreSQL 引擎 |
pymysql | 1.0.2 | mysql | SQLAlchemy 的 MySQL 引擎 |
adbc-driver-postgresql | 0.8.0 | postgresql | 用于 PostgreSQL 的 ADBC 驱动程序 |
adbc-driver-sqlite | 0.8.0 | sql-other | 用于 SQLite 的 ADBC 驱动程序 |
其他数据源
使用 pip install "pandas[hdf5, parquet, feather, spss, excel]"
可以安装。
依赖 | 最低版本 | pip 额外 | 注释 |
PyTables | 3.8.0 | hdf5 | 基于 HDF5 的读取 / 写入 |
blosc | 1.21.3 | hdf5 | HDF5 的压缩;仅在 conda 上可用 |
zlib | hdf5 | HDF5 的压缩 | |
fastparquet | 2022.12.0 | Parquet 的读取 / 写入(pyarrow 是默认的) | |
pyarrow | 10.0.1 | parquet, feather | Parquet、ORC 和 feather 的读取 / 写入 |
pyreadstat | 1.2.0 | spss | SPSS 文件(.sav)读取 |
odfpy | 1.4.1 | excel | 读取 / 写入开放文档格式(.odf、.ods、.odt) |
警告
- 如果您想要使用
read_orc()
,强烈建议使用 conda 安装 pyarrow。如果使用 pypi 安装了 pyarrow,可能会导致read_orc()
失败,并且read_orc()
不兼容 Windows 操作系统。
云端数据访问
使用 pip install "pandas[fss, aws, gcp]"
可以安装。
依赖 | 最低版本 | pip 额外 | 注释 |
fsspec | 2022.11.0 | fss, gcp, aws | 处理除了简单本地和 HTTP 之外的文件(s3fs、gcsfs 的必需依赖) |
gcsfs | 2022.11.0 | gcp | 谷歌云存储访问 |
pandas-gbq | 0.19.0 | gcp | 谷歌大查询访问 |
s3fs | 2022.11.0 | aws | 亚马逊 S3 访问 |
剪贴板
使用 pip install "pandas[clipboard]"
可以安装。
依赖 | 最低版本 | pip 额外 | 注释 |
PyQt4/PyQt5 | 5.15.9 | clipboard | 剪贴板 I/O |
qtpy | 2.3.0 | clipboard | 剪贴板 I/O |
注意
根据操作系统的不同,可能需要安装系统级包。在 Linux 上,要使剪贴板正常工作,您的系统必须安装其中一个 CLI 工具 xclip
或 xsel
。
压缩
使用 pip install "pandas[compression]"
可以安装。
依赖 | 最低版本 | pip 额外 | 注意 |
Zstandard | 0.19.0 | 压缩 | Zstandard 压缩 |
联盟标准
可以使用 pip install "pandas[consortium-standard]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注意 |
dataframe-api-compat | 0.1.7 | 联盟标准 | 基于 pandas 的联盟标准兼容实现 |
性能依赖(推荐)
注:
强烈建议您安装这些库,因为它们可以提供速度改进,特别是在处理大型数据集时。
可以使用 pip install "pandas[performance]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注意 |
numexpr | 2.8.4 | 性能 | 通过使用多核心以及智能分块和缓存来加速某些数值操作,从而实现大幅加速 |
bottleneck | 1.3.6 | 性能 | 通过使用专门的 cython 程序例程来加速某些类型的 nan ,从而实现大幅加速 |
numba | 0.56.4 | 性能 | 对于接受 engine="numba" 的操作,使用将 Python 函数转换为优化的机器代码的 JIT 编译器执行引擎。 |
可视化
可以使用 pip install "pandas[plot, output-formatting]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注意 |
matplotlib | 3.6.3 | 绘图 | 绘图库 |
Jinja2 | 3.1.2 | 输出格式化 | 使用 DataFrame.style 进行条件格式化 |
tabulate | 0.9.0 | 输出格式化 | 以 Markdown 友好格式打印(参见 tabulate) |
计算
可以使用 pip install "pandas[computation]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注意 |
SciPy | 1.10.0 | 计算 | 各种统计函数 |
xarray | 2022.12.0 | 计算 | 用于 N 维数据的类似 pandas 的 API |
Excel 文件
可以使用 pip install "pandas[excel]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注意 |
xlrd | 2.0.1 | excel | 读取 Excel |
xlsxwriter | 3.0.5 | excel | 写入 Excel |
openpyxl | 3.1.0 | excel | 用于 xlsx 文件的读取/写入 |
pyxlsb | 1.0.10 | excel | 读取 xlsb 文件 |
python-calamine | 0.1.7 | excel | 读取 xls/xlsx/xlsb/ods 文件 |
HTML
可以使用 pip install "pandas[html]"
进行安装。
依赖 | 最低版本 | pip 额外 | 注意 |
BeautifulSoup4 | 4.11.2 | html | 用于 read_html 的 HTML 解析器 |
html5lib | 1.1 | html | 用于 read_html 的 HTML 解析器 |
lxml | 4.9.2 | html | 用于 read_html 的 HTML 解析器 |
使用以下组合之一的库来使用顶层 read_html()
函数:
- BeautifulSoup4 和 html5lib
- BeautifulSoup4 和 lxml
- BeautifulSoup4 和 html5lib 和 lxml
- 只有 lxml,但是请参阅 HTML 表解析,了解为什么您可能 不 应采用这种方法。
警告
- 如果您安装了BeautifulSoup4,您必须安装lxml或者html5lib,或者两者都安装。只安装BeautifulSoup4 将无法使
read_html()
工作。 - 非常鼓励阅读 HTML 表解析陷阱。它解释了围绕上述三个库的安装和使用的问题。
XML
可通过 pip install "pandas[xml]"
安装。
依赖项 | 最低版本 | pip 额外 | 注释 |
lxml | 4.9.2 | xml | read_xml 的 XML 解析器和 to_xml 的树构建器 |
SQL 数据库
使用 pip install "pandas[postgresql, mysql, sql-other]"
可以安装传统驱动程序。
依赖项 | 最低版本 | pip 额外 | 注释 |
SQLAlchemy | 2.0.0 | postgresql, mysql, sql-other | 除 SQLite 外的其他数据库的 SQL 支持 |
psycopg2 | 2.9.6 | postgresql | sqlalchemy 的 PostgreSQL 引擎 |
pymysql | 1.0.2 | mysql | sqlalchemy 的 MySQL 引擎 |
adbc-driver-postgresql | 0.8.0 | postgresql | PostgreSQL 的 ADBC 驱动程序 |
adbc-driver-sqlite | 0.8.0 | sql-other | SQLite 的 ADBC 驱动程序 |
其他数据源
使用 pip install "pandas[hdf5, parquet, feather, spss, excel]"
可以安装。
依赖项 | 最低版本 | pip 额外 | 注释 |
PyTables | 3.8.0 | hdf5 | 基于 HDF5 的读取/写入 |
blosc | 1.21.3 | hdf5 | HDF5 的压缩;只在 conda 上可用 |
zlib | hdf5 | HDF5 的压缩 | |
fastparquet | 2022.12.0 | Parquet 读取/写入(pyarrow 是默认的) | |
pyarrow | 10.0.1 | parquet, feather | Parquet、ORC 和 feather 读取/写入 |
pyreadstat | 1.2.0 | spss | SPSS 文件(.sav)读取 |
odfpy | 1.4.1 | excel | Open document format(.odf, .ods, .odt)读取/写入 |
警告
- 如果你想要使用
read_orc()
,强烈建议使用 conda 安装 pyarrow。如果从 pypi 安装了 pyarrow,read_orc()
可能会失败,并且read_orc()
不兼容 Windows 操作系统。
访问云端数据
使用pip install "pandas[fss, aws, gcp]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
fsspec | 2022.11.0 | fss, gcp, aws | 处理除简单本地和 HTTP 之外的文件(s3fs、gcsfs 的必需依赖)。 |
gcsfs | 2022.11.0 | gcp | 谷歌云存储访问 |
pandas-gbq | 0.19.0 | gcp | 谷歌大查询访问 |
s3fs | 2022.11.0 | aws | 亚马逊 S3 访问 |
剪贴板
使用pip install "pandas[clipboard]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
PyQt4/PyQt5 | 5.15.9 | clipboard | 剪贴板 I/O |
qtpy | 2.3.0 | clipboard | 剪贴板 I/O |
注意
根据操作系统的不同,可能需要安装系统级软件包。在 Linux 上,剪贴板要操作,系统上必须安装xclip
或xsel
中的一个 CLI 工具。
压缩
使用pip install "pandas[compression]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
Zstandard | 0.19.0 | compression | Zstandard 压缩 |
联盟标准
使用pip install "pandas[consortium-standard]"
进行安装。
依赖 | 最低版本 | pip 额外 | 备注 |
dataframe-api-compat | 0.1.7 | consortium-standard | 基于 pandas 的符合联盟标准的实现 |
包概述
pandas 是一个Python包,提供快速、灵活和表达性强的数据结构,旨在使处理“关系”或“标记”数据变得简单和直观。它旨在成为在 Python 中进行实际、现实世界数据分析的基本高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大和灵活的开源数据分析/操作工具。它已经在这个目标的道路上取得了很大进展。
pandas 非常适合许多不同类型的数据:
- 具有异构类型列的表格数据,如 SQL 表或 Excel 电子表格
- 有序和无序(不一定是固定频率)的时间序列数据
- 具有行和列标签的任意矩阵数据(同质或异质类型)
- 任何其他形式的观测/统计数据集。数据不需要被标记,也可以放入 pandas 数据结构中。
pandas 的两个主要数据结构,Series
(1 维)和DataFrame
(2 维),处理金融、统计学、社会科学和许多工程领域的绝大多数典型用例。对于 R 用户,DataFrame
提供了 R 的data.frame
提供的一切,以及更多。pandas 建立在NumPy之上,旨在与许多其他第三方库在科学计算环境中很好地集成。
以下是 pandas 擅长的一些事情:
- 处理浮点和非浮点数据中的缺失数据(表示为 NaN)非常容易
- 大小可变性:可以从 DataFrame 和更高维对象中插入和删除列
- 自动和显式的数据对齐:对象可以显式地与一组标签对齐,或者用户可以简单地忽略标签,让
Series
、DataFrame
等在计算中自动为您对齐数据- 强大、灵活的分组功能,可以对数据集执行分割-应用-合并操作,用于聚合和转换数据
- 使将其他 Python 和 NumPy 数据结构中的不规则、具有不同索引的数据轻松转换为 DataFrame 对象变得容易
- 对大型数据集进行智能基于标签的切片、高级索引和子集操作
- 直观的合并和连接数据集
- 灵活的数据集重塑和透视
- 轴的分层标签(每个刻度可能有多个标签)
- 用于从平面文件(CSV 和分隔符)、Excel 文件、数据库加载数据以及从超快速HDF5 格式保存/加载数据的强大 IO 工具
- 时间序列特定功能:日期范围生成和频率转换,滑动窗口统计,日期移动和滞后。
这些原则中的许多都是为了解决在使用其他语言/科学研究环境时经常遇到的缺点。对于数据科学家来说,处理数据通常分为多个阶段:整理和清理数据,分析/建模,然后将分析结果组织成适合绘图或表格显示的形式。pandas 是所有这些任务的理想工具。
其他一些注意事项
- pandas 速度快。许多底层算法部分在Cython代码中已经得到了大量调整。但是,与其他任何事物一样,一般化通常会牺牲性能。因此,如果您专注于应用程序的某一特性,您可能能够创建一个更快的专业工具。
- pandas 是statsmodels的依赖项,使其成为 Python 统计计算生态系统中的重要部分。
- pandas 已在金融应用程序中广泛使用。
数据结构
维度 | 名称 | 描述 |
1 | Series | 一维标记同构类型数组 |
2 | DataFrame | 通用的二维标记、可变大小的表格结构,列的类型可能异构 |
为什么需要多个数据结构?
最好将 pandas 数据结构视为适用于低维数据的灵活容器。例如,DataFrame 是 Series 的容器,而 Series 是标量的容器。我们希望能够以类似字典的方式向这些容器中插入和删除对象。
另外,我们希望常见 API 函数的默认行为能够考虑到时间序列和横截面数据集的典型方向。当使用 N 维数组(ndarrays)存储二维和三维数据时,用户在编写函数时需要考虑数据集的方向;轴被认为是更或多或少等效的(除非 C- 或 Fortran-连续性对性能很重要)。在 pandas 中,轴旨在为数据提供更多的语义含义;即,对于特定的数据集,很可能有一种“正确”的方式来定位数据。因此,目标是减少编写下游函数中的数据转换所需的心理努力。
例如,对于表格数据(DataFrame),更有语义的方法是考虑索引(行)和列,而不是轴 0 和轴 1。因此,通过 DataFrame 的列进行迭代将产生更可读的代码:
for col in df.columns: series = df[col] # do something with series
数据的可变性和复制
所有 pandas 数据结构都是值可变的(它们包含的值可以被改变),但不总是大小可变的。Series 的长度不能改变,但是,例如,可以在 DataFrame 中插入列。然而,绝大多数方法会产生新对象并保持输入数据不变。通常情况下,我们喜欢偏向不可变性。
获取支持
pandas 问题和想法的第一站是GitHub Issue Tracker。如果您有一般问题,pandas 社区专家可以通过Stack Overflow回答。
社区
今天,pandas 得到全球志同道合的个人社区的积极支持,他们贡献了宝贵的时间和精力,帮助使开源 pandas 成为可能。感谢所有贡献者。
如果您有兴趣贡献,请访问贡献指南。
pandas 是NumFOCUS赞助的项目。这将有助于确保 pandas 作为世界一流开源项目的成功,并使捐赠给该项目成为可能。
项目治理
pandas 项目自 2008 年成立以来一直在非正式使用的治理流程在项目治理文件中得到了正式化。这些文件澄清了决策的方式以及我们社区的各个元素如何互动,包括开源协作开发与可能由营利性或非营利性实体资助的工作之间的关系。
Wes McKinney 是终身仁慈独裁者(BDFL)。
开发团队
核心团队成员列表和更详细信息可在pandas 网站上找到。
机构合作伙伴
关于当前机构合作伙伴的信息可在pandas 网站页面上找到。
许可证
BSD 3-Clause License Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team All rights reserved. Copyright (c) 2011-2023, Open source contributors. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of the copyright holder nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
数据结构
维度 | 名称 | 描述 |
1 | Series | 1D 标记同质类型数组 |
2 | DataFrame | 通用的二维标记,大小可变的表格结构,列可能具有异构类型 |
为什么需要多个数据结构?
最好将 pandas 数据结构视为低维数据的灵活容器。例如,DataFrame 是 Series 的容器,而 Series 是标量的容器。我们希望能够以类似字典的方式插入和删除这些容器中的对象。
此外,我们希望常见 API 函数有合理的默认行为,考虑到时间序列和横截面数据集的典型方向。当使用 N 维数组(ndarrays)存储 2 维和 3 维数据时,用户需要考虑数据集的方向来编写函数;轴被认为是更或多或少等价的(除非 C 或 Fortran 连续性对性能有影响)。在 pandas 中,轴旨在为数据提供更多语义意义;即,对于特定数据集,可能有一种“正确”的方式来定位数据。因此,目标是减少编写下游函数中数据转换所需的心智努力量。
例如,对于表格数据(DataFrame),更有语义的方式是考虑索引(行)和列,而不是轴 0 和轴 1。因此,通过 DataFrame 的列进行迭代会导致更易读的代码:
for col in df.columns: series = df[col] # do something with series
为什么会有多个数据结构?
最好的方式是将 pandas 数据结构视为低维数据的灵活容器。例如,DataFrame 是 Series 的容器,而 Series 是标量的容器。我们希望能够以类似字典的方式向这些容器中插入和移除对象。
此外,我们希望常见 API 函数有合理的默认行为,考虑到时间序列和横截面数据集的典型方向。当使用 N 维数组(ndarrays)存储 2 维和 3 维数据时,用户需要考虑数据集的方向来编写函数;轴被认为是更或多或少等价的(除非 C 或 Fortran 连续性对性能有影响)。在 pandas 中,轴旨在为数据提供更多语义意义;即,对于特定数据集,可能有一种“正确”的方式来定位数据。因此,目标是减少编写下游函数中数据转换所需的心智努力量。
例如,对于表格数据(DataFrame),更有语义的方式是考虑索引(行)和列,而不是轴 0 和轴 1。因此,通过 DataFrame 的列进行迭代会导致更易读的代码:
for col in df.columns: series = df[col] # do something with series
可变性和数据的复制
所有的 pandas 数据结构都是值可变的(它们包含的值可以被改变),但并非总是大小可变的。Series 的长度不能被改变,但是,例如,可以在 DataFrame 中插入列。然而,绝大多数方法会产生新对象,并保持输入数据不变。一般来说,我们喜欢偏向不可变性,在合适的情况下。
获取支持
pandas 的问题和想法的第一站是GitHub Issue Tracker。如果您有一般问题,pandas 社区专家可以通过Stack Overflow回答。
社区
今天,pandas 受到全球志同道合的个人社区的积极支持,他们贡献了宝贵的时间和精力来帮助使开源 pandas 成为可能。感谢我们所有的贡献者。
如果您有兴趣贡献,请访问贡献指南。
pandas 是一个NumFOCUS赞助的项目。这将有助于确保 pandas 作为一个世界一流的开源项目的成功,并使捐赠给该项目成为可能。
项目治理
pandas 项目自 2008 年成立以来一直使用的治理流程已在项目治理文件中正式规范化。这些文件澄清了如何做出决策以及我们社区各个元素之间的互动方式,包括开源协作开发与可能由营利性或非营利性实体资助的工作之间的关系。
Wes McKinney 是终身仁慈独裁者(BDFL)。
开发团队
核心团队成员列表和更详细的信息可以在pandas 网站上找到。
机构合作伙伴
当前机构合作伙伴的信息可以在pandas 网站页面上找到。
许可证
BSD 3-Clause License Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team All rights reserved. Copyright (c) 2011-2023, Open source contributors. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of the copyright holder nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
入门教程
原文:
pandas.pydata.org/docs/getting_started/intro_tutorials/index.html
- pandas 处理什么类型的数据?
- 如何读取和写入表格数据?
- 如何选择
DataFrame
的子集? - 如何在 pandas 中创建图表?
- 如何从现有列派生新列
- 如何计算摘要统计信息
- 如何重新设计表格布局
- 如何合并来自多个表的数据
- 如何轻松处理时间序列数据
- 如何操作文本数据
pandas 处理什么类型的数据?
原文:
pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html
- 我想开始使用 pandas
In [1]: import pandas as pd
- 要加载 pandas 包并开始使用它,请导入该包。 社区约定的 pandas 别名是
pd
,因此假定将 pandas 加载为pd
是所有 pandas 文档的标准做法。
Pandas 2.2 中文官方教程和指南(一)(3)https://developer.aliyun.com/article/1510594