掌握Pandas核心数据结构:Series与DataFrame的四种创建方式

简介: 本文介绍了 Pandas 库中核心数据结构 Series 和 DataFrame 的四种创建方法,包括从列表、字典、标量和 NumPy 数组创建 Series,以及从字典、列表的列表、NumPy 数组和 Series 字典创建 DataFrame,通过示例详细说明了每种创建方式的具体应用。

掌握Pandas核心数据结构:Series与DataFrame的四种创建方式

Pandas 是 Python 中用于数据分析和处理的强大库,其核心数据结构包括 Series 和 DataFrame。本文将详细介绍这两种数据结构的四种常见创建方式,并通过示例进行说明。

1. 什么是 Series 和 DataFrame?

  • Series:一维数组,能够存储任何类型的数据(整数、字符串、浮点数等)。每个元素都有一个标签(索引)。
  • DataFrame:二维表格型数据结构,每列可以是不同的值类型(数值、字符串等),每一列都是一个 Series。

2. 创建 Series 的四种方式

2.1 从列表创建
import pandas as pd

# 从列表创建 Series
data = [1, 2, 3, 4, 5]
series_from_list = pd.Series(data)
print(series_from_list)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64
2.2 从字典创建
# 从字典创建 Series
data_dict = {
   'a': 1, 'b': 2, 'c': 3}
series_from_dict = pd.Series(data_dict)
print(series_from_dict)

输出:

a    1
b    2
c    3
dtype: int64
2.3 从标量创建
# 从标量创建 Series
scalar_value = 5
index = ['a', 'b', 'c']
series_from_scalar = pd.Series(scalar_value, index=index)
print(series_from_scalar)

输出:

a    5
b    5
c    5
dtype: int64
2.4 从 NumPy 数组创建
import numpy as np

# 从 NumPy 数组创建 Series
np_array = np.array([1, 2, 3, 4, 5])
series_from_np_array = pd.Series(np_array)
print(series_from_np_array)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64

3. 创建 DataFrame 的四种方式

3.1 从字典创建
# 从字典创建 DataFrame
data = {
   
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df_from_dict = pd.DataFrame(data)
print(df_from_dict)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.2 从列表的列表创建
# 从列表的列表创建 DataFrame
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
columns = ['Name', 'Age', 'City']
df_from_list_of_lists = pd.DataFrame(data, columns=columns)
print(df_from_list_of_lists)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.3 从 NumPy 数组创建
# 从 NumPy 数组创建 DataFrame
np_array = np.array([
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
])
columns = ['Name', 'Age', 'City']
df_from_np_array = pd.DataFrame(np_array, columns=columns)
print(df_from_np_array)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.4 从 Series 字典创建
# 从 Series 字典创建 DataFrame
name_series = pd.Series(['Alice', 'Bob', 'Charlie'], name='Name')
age_series = pd.Series([25, 30, 35], name='Age')
city_series = pd.Series(['New York', 'Los Angeles', 'Chicago'], name='City')

df_from_series_dict = pd.DataFrame({
   
    'Name': name_series,
    'Age': age_series,
    'City': city_series
})
print(df_from_series_dict)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

4. 总结

通过以上示例,我们可以看到 Pandas 提供了多种灵活的方式来创建 Series 和 DataFrame。根据具体需求选择合适的方法,可以大大提高数据处理的效率和代码的可读性。希望本文对您理解和使用 Pandas 的核心数据结构有所帮助!

如果您有任何问题或需要进一步的帮助,请随时留言讨论。祝您在数据分析的道路上越走越远!

欢迎点赞、关注、转发、收藏!!!

相关文章
|
2月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
278 0
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
445 0
|
存储 数据挖掘 索引
Pandas数据结构:Series与DataFrame
本文介绍了 Python 的 Pandas 库中两种主要数据结构 `Series` 和 ``DataFrame`,从基础概念入手,详细讲解了它们的创建、常见问题及解决方案,包括数据缺失处理、数据类型转换、重复数据删除、数据筛选、排序、聚合和合并等操作。同时,还提供了常见报错及解决方法,帮助读者更好地理解和使用 Pandas 进行数据分析。
818 11
|
4月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
404 0
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
337 1
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
362 0
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
305 2
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
361 3
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
181 1
|
机器学习/深度学习 数据采集 监控
Pandas与Matplotlib:Python中的动态数据可视化
Pandas与Matplotlib:Python中的动态数据可视化

热门文章

最新文章