掌握Pandas核心数据结构:Series与DataFrame的四种创建方式
Pandas 是 Python 中用于数据分析和处理的强大库,其核心数据结构包括 Series 和 DataFrame。本文将详细介绍这两种数据结构的四种常见创建方式,并通过示例进行说明。
1. 什么是 Series 和 DataFrame?
- Series:一维数组,能够存储任何类型的数据(整数、字符串、浮点数等)。每个元素都有一个标签(索引)。
- DataFrame:二维表格型数据结构,每列可以是不同的值类型(数值、字符串等),每一列都是一个 Series。
2. 创建 Series 的四种方式
2.1 从列表创建
import pandas as pd
# 从列表创建 Series
data = [1, 2, 3, 4, 5]
series_from_list = pd.Series(data)
print(series_from_list)
输出:
0 1
1 2
2 3
3 4
4 5
dtype: int64
2.2 从字典创建
# 从字典创建 Series
data_dict = {
'a': 1, 'b': 2, 'c': 3}
series_from_dict = pd.Series(data_dict)
print(series_from_dict)
输出:
a 1
b 2
c 3
dtype: int64
2.3 从标量创建
# 从标量创建 Series
scalar_value = 5
index = ['a', 'b', 'c']
series_from_scalar = pd.Series(scalar_value, index=index)
print(series_from_scalar)
输出:
a 5
b 5
c 5
dtype: int64
2.4 从 NumPy 数组创建
import numpy as np
# 从 NumPy 数组创建 Series
np_array = np.array([1, 2, 3, 4, 5])
series_from_np_array = pd.Series(np_array)
print(series_from_np_array)
输出:
0 1
1 2
2 3
3 4
4 5
dtype: int64
3. 创建 DataFrame 的四种方式
3.1 从字典创建
# 从字典创建 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df_from_dict = pd.DataFrame(data)
print(df_from_dict)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
3.2 从列表的列表创建
# 从列表的列表创建 DataFrame
data = [
['Alice', 25, 'New York'],
['Bob', 30, 'Los Angeles'],
['Charlie', 35, 'Chicago']
]
columns = ['Name', 'Age', 'City']
df_from_list_of_lists = pd.DataFrame(data, columns=columns)
print(df_from_list_of_lists)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
3.3 从 NumPy 数组创建
# 从 NumPy 数组创建 DataFrame
np_array = np.array([
['Alice', 25, 'New York'],
['Bob', 30, 'Los Angeles'],
['Charlie', 35, 'Chicago']
])
columns = ['Name', 'Age', 'City']
df_from_np_array = pd.DataFrame(np_array, columns=columns)
print(df_from_np_array)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
3.4 从 Series 字典创建
# 从 Series 字典创建 DataFrame
name_series = pd.Series(['Alice', 'Bob', 'Charlie'], name='Name')
age_series = pd.Series([25, 30, 35], name='Age')
city_series = pd.Series(['New York', 'Los Angeles', 'Chicago'], name='City')
df_from_series_dict = pd.DataFrame({
'Name': name_series,
'Age': age_series,
'City': city_series
})
print(df_from_series_dict)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
4. 总结
通过以上示例,我们可以看到 Pandas 提供了多种灵活的方式来创建 Series 和 DataFrame。根据具体需求选择合适的方法,可以大大提高数据处理的效率和代码的可读性。希望本文对您理解和使用 Pandas 的核心数据结构有所帮助!
如果您有任何问题或需要进一步的帮助,请随时留言讨论。祝您在数据分析的道路上越走越远!
欢迎点赞、关注、转发、收藏!!!