掌握Pandas核心数据结构:Series与DataFrame的四种创建方式

简介: 本文介绍了 Pandas 库中核心数据结构 Series 和 DataFrame 的四种创建方法,包括从列表、字典、标量和 NumPy 数组创建 Series,以及从字典、列表的列表、NumPy 数组和 Series 字典创建 DataFrame,通过示例详细说明了每种创建方式的具体应用。

掌握Pandas核心数据结构:Series与DataFrame的四种创建方式

Pandas 是 Python 中用于数据分析和处理的强大库,其核心数据结构包括 Series 和 DataFrame。本文将详细介绍这两种数据结构的四种常见创建方式,并通过示例进行说明。

1. 什么是 Series 和 DataFrame?

  • Series:一维数组,能够存储任何类型的数据(整数、字符串、浮点数等)。每个元素都有一个标签(索引)。
  • DataFrame:二维表格型数据结构,每列可以是不同的值类型(数值、字符串等),每一列都是一个 Series。

2. 创建 Series 的四种方式

2.1 从列表创建
import pandas as pd

# 从列表创建 Series
data = [1, 2, 3, 4, 5]
series_from_list = pd.Series(data)
print(series_from_list)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64
2.2 从字典创建
# 从字典创建 Series
data_dict = {
   'a': 1, 'b': 2, 'c': 3}
series_from_dict = pd.Series(data_dict)
print(series_from_dict)

输出:

a    1
b    2
c    3
dtype: int64
2.3 从标量创建
# 从标量创建 Series
scalar_value = 5
index = ['a', 'b', 'c']
series_from_scalar = pd.Series(scalar_value, index=index)
print(series_from_scalar)

输出:

a    5
b    5
c    5
dtype: int64
2.4 从 NumPy 数组创建
import numpy as np

# 从 NumPy 数组创建 Series
np_array = np.array([1, 2, 3, 4, 5])
series_from_np_array = pd.Series(np_array)
print(series_from_np_array)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64

3. 创建 DataFrame 的四种方式

3.1 从字典创建
# 从字典创建 DataFrame
data = {
   
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df_from_dict = pd.DataFrame(data)
print(df_from_dict)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.2 从列表的列表创建
# 从列表的列表创建 DataFrame
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
columns = ['Name', 'Age', 'City']
df_from_list_of_lists = pd.DataFrame(data, columns=columns)
print(df_from_list_of_lists)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.3 从 NumPy 数组创建
# 从 NumPy 数组创建 DataFrame
np_array = np.array([
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
])
columns = ['Name', 'Age', 'City']
df_from_np_array = pd.DataFrame(np_array, columns=columns)
print(df_from_np_array)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.4 从 Series 字典创建
# 从 Series 字典创建 DataFrame
name_series = pd.Series(['Alice', 'Bob', 'Charlie'], name='Name')
age_series = pd.Series([25, 30, 35], name='Age')
city_series = pd.Series(['New York', 'Los Angeles', 'Chicago'], name='City')

df_from_series_dict = pd.DataFrame({
   
    'Name': name_series,
    'Age': age_series,
    'City': city_series
})
print(df_from_series_dict)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

4. 总结

通过以上示例,我们可以看到 Pandas 提供了多种灵活的方式来创建 Series 和 DataFrame。根据具体需求选择合适的方法,可以大大提高数据处理的效率和代码的可读性。希望本文对您理解和使用 Pandas 的核心数据结构有所帮助!

如果您有任何问题或需要进一步的帮助,请随时留言讨论。祝您在数据分析的道路上越走越远!

欢迎点赞、关注、转发、收藏!!!

相关文章
|
1月前
|
SQL 数据采集 数据可视化
Pandas 数据结构 - DataFrame
10月更文挑战第26天
45 2
Pandas 数据结构 - DataFrame
|
1月前
|
索引 Python
Pandas 数据结构 - Series
10月更文挑战第26天
34 2
Pandas 数据结构 - Series
|
5月前
|
存储 数据可视化 数据处理
`geopandas`是一个开源项目,它为Python提供了地理空间数据处理的能力。它基于`pandas`库,并扩展了其对地理空间数据(如点、线、多边形等)的支持。`GeoDataFrame`是`geopandas`中的核心数据结构,它类似于`pandas`的`DataFrame`,但包含了一个额外的地理列(通常是`geometry`列),用于存储地理空间数据。
`geopandas`是一个开源项目,它为Python提供了地理空间数据处理的能力。它基于`pandas`库,并扩展了其对地理空间数据(如点、线、多边形等)的支持。`GeoDataFrame`是`geopandas`中的核心数据结构,它类似于`pandas`的`DataFrame`,但包含了一个额外的地理列(通常是`geometry`列),用于存储地理空间数据。
|
6月前
|
存储 数据挖掘 数据处理
【python源码解析】深入 Pandas BlockManager 的数据结构和初始化过程
【python源码解析】深入 Pandas BlockManager 的数据结构和初始化过程
|
7月前
|
存储 数据挖掘 数据处理
Pandas数据结构详解:Series与DataFrame的奥秘
【4月更文挑战第16天】Pandas的Series和DataFrame是数据处理的核心工具。Series是一维标签化数组,支持各种数据类型,可通过索引便捷访问。DataFrame是二维表格型数据结构,适合存储和操作表格数据。两者提供丰富的统计方法和操作,如筛选、排序、分组聚合。它们之间可相互转换和交互,助力高效的数据分析。理解和掌握Series和DataFrame对于数据科学至关重要。
|
存储 数据挖掘 索引
【Pandas数据分析1】pandas数据结构
【Pandas数据分析1】pandas数据结构
125 0
|
7月前
|
索引 Python
两个使用 Pandas 读取异常数据结构 Excel 的方法,拿走不谢!
两个使用 Pandas 读取异常数据结构 Excel 的方法,拿走不谢!
|
SQL 机器学习/深度学习 数据挖掘
pandas数据结构(Series和DataFrame)
无可非议,pandas是Python最强大的数据分析和探索工具之一,因金融数据分析工具而开发,支持类似于SQL语句的模型,可以对数据进行增删改查等操作,支持时间序列分析,也能够灵活的处理缺失的数据。它含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。这里所说的让pandas变得更快更简单的高级数据结构就是Series和DataFrame。要熟练使用pandas,首先得要熟悉它的这两个主要的数据结构:Series和DateFrame。
102 0
|
SQL 数据挖掘 数据库
【100天精通Python】Day54:Python 数据分析_Pandas入门基础,核心数据结构Serise、DataFrame、Index对象,数据的导入操作
【100天精通Python】Day54:Python 数据分析_Pandas入门基础,核心数据结构Serise、DataFrame、Index对象,数据的导入导出操作
208 0
|
索引 Python
Pandas数据结构
Pandas数据结构
65 0