Python代码示例:数据清洗、表合并和分组计算销售额
在数据分析和处理过程中,数据清洗、表合并和分组计算销售额是常见的任务。本文将使用Python编程语言演示如何进行这些操作。
首先,我们需要生成模拟的销售数据和商品详情数据。我们创建了一个包含订单编号、产品名称和数量的销售数据表,以及一个包含产品名称、类别和单价的商品详情表。我们使用随机数生成器来填充这些数据,并将它们保存为CSV文件。
import pandas as pd import random # 创建商品池子 product_pool = ['苹果', '香蕉', '橙子', '牛奶', '面包', '洗发水', '牙刷', '洗衣液'] # 生成销售数据表 sales_data = pd.DataFrame({ '订单编号': [f'订单{i}' for i in range(1, 11)], '产品名称': [random.choice(product_pool) for _ in range(10)], '数量': [random.randint(1, 10) for _ in range(10)] }) # 添加价格列 sales_data['价格'] = [random.randint(10, 100) for _ in range(10)] # 打印销售数据表 print("销售数据表:") print(sales_data.to_string(index=False)) # 生成商品详情表 product_data = pd.DataFrame({ '产品名称': product_pool, '类别': ['水果', '水果', '水果', '乳制品', '面包', '洗护用品', '洗护用品', '洗涤用品'], '品牌': ['品牌A', '品牌A', '品牌B', '品牌B', '品牌C', '品牌C', '品牌D', '品牌D'] }) # 添加单价列 product_data['单价'] = [random.randint(1, 10) for _ in range(len(product_pool))] # 打印商品详情表 print("\n商品详情表:") print(product_data.to_string(index=False)) # 将销售数据表保存为CSV文件 sales_data.to_csv('sales_data.csv', index=False) # 将商品详情表保存为CSV文件 product_data.to_csv('product_data.csv', index=False)
接下来,我们将读取这两个CSV文件,并进行数据清洗和表合并。我们使用pd.read_csv()
函数读取CSV文件,然后使用dropna()
函数去除销售数据表中的空值行。使用pd.merge()
函数按照产品名称进行左连接合并销售数据表和商品详情表。
import pandas as pd # 读取销售数据表和商品详情表 sales_data = pd.read_csv('sales_data.csv') product_data = pd.read_csv('product_data.csv') # 数据清洗 # 去除销售数据表中的空值行 sales_data = sales_data.dropna() # 合并销售数据表和商品详情表 merged_data = pd.merge(sales_data, product_data, on='产品名称', how='left') # 打印合并后的数据 print("合并后的数据:") print(merged_data.to_string(index=False))
最后,我们对合并后的数据进行合理的分组,并计算销售额。我们使用groupby()
函数按照类别进行分组,并使用agg()
函数计算总数量和总价格。然后,我们计算销售额,并将其添加到分组后的数据中。
# 按类别分组,并计算销售额 grouped_data = merged_data.groupby('类别').agg({'数量': 'sum', '价格': 'sum'}) # 打印按类别分组的销售数据 print("\n按类别分组的销售数据:") print(grouped_data.to_string()) # 计算销售额 grouped_data['销售额'] = grouped_data['数量'] * grouped_data['价格'] # 打印按类别分组的销售额 print("\n按类别分组的销售额:") print(grouped_data.to_string())
完整代码
数据生成代码
import pandas as pd import random # 创建商品池子 product_pool = ['苹果', '香蕉', '橙子', '牛奶', '面包', '洗发水', '牙刷', '洗衣液'] # 生成销售数据表 sales_data = pd.DataFrame({ '订单编号': [f'订单{i}' for i in range(1, 11)], '产品名称': [random.choice(product_pool) for _ in range(10)], '数量': [random.randint(1, 10) for _ in range(10)] }) # 添加价格列 sales_data['价格'] = [random.randint(10, 100) for _ in range(10)] # 打印销售数据表 print("销售数据表:") print(sales_data.to_string(index=False)) # 生成商品详情表 product_data = pd.DataFrame({ '产品名称': product_pool, '类别': ['水果', '水果', '水果', '乳制品', '面包', '洗护用品', '洗护用品', '洗涤用品'], '品牌': ['品牌A', '品牌A', '品牌B', '品牌B', '品牌C', '品牌C', '品牌D', '品牌D'] }) # 添加单价列 product_data['单价'] = [random.randint(1, 10) for _ in range(len(product_pool))] # 打印商品详情表 print("\n商品详情表:") print(product_data.to_string(index=False)) # 将销售数据表保存为CSV文件 sales_data.to_csv('sales_data.csv', index=False) # 将商品详情表保存为CSV文件 product_data.to_csv('product_data.csv', index=False)
数据操作代码
import pandas as pd # 读取销售数据表和商品详情表 sales_data = pd.read_csv('sales_data.csv') product_data = pd.read_csv('product_data.csv') # 数据清洗 # 去除销售数据表中的空值行 sales_data = sales_data.dropna() # 合并销售数据表和商品详情表 merged_data = pd.merge(sales_data, product_data, on='产品名称', how='left') # 按类别分组,并计算销售额 grouped_data = merged_data.groupby('类别').agg({'数量': 'sum', '价格': 'sum'}) # 打印合并后的数据和计算结果 print("合并后的数据:") print(merged_data.to_string(index=False)) print("\n按类别分组的销售数据:") print(grouped_data.to_string()) # 计算销售额 grouped_data['销售额'] = grouped_data['数量'] * grouped_data['价格'] print("\n按类别分组的销售额:") print(grouped_data.to_string())