Python代码示例:数据清洗、表合并和分组计算销售额

简介: Python代码示例:数据清洗、表合并和分组计算销售额

Python代码示例:数据清洗、表合并和分组计算销售额

在数据分析和处理过程中,数据清洗、表合并和分组计算销售额是常见的任务。本文将使用Python编程语言演示如何进行这些操作。

首先,我们需要生成模拟的销售数据和商品详情数据。我们创建了一个包含订单编号、产品名称和数量的销售数据表,以及一个包含产品名称、类别和单价的商品详情表。我们使用随机数生成器来填充这些数据,并将它们保存为CSV文件。

import pandas as pd
import random
# 创建商品池子
product_pool = ['苹果', '香蕉', '橙子', '牛奶', '面包', '洗发水', '牙刷', '洗衣液']
# 生成销售数据表
sales_data = pd.DataFrame({
    '订单编号': [f'订单{i}' for i in range(1, 11)],
    '产品名称': [random.choice(product_pool) for _ in range(10)],
    '数量': [random.randint(1, 10) for _ in range(10)]
})
# 添加价格列
sales_data['价格'] = [random.randint(10, 100) for _ in range(10)]
# 打印销售数据表
print("销售数据表:")
print(sales_data.to_string(index=False))
# 生成商品详情表
product_data = pd.DataFrame({
    '产品名称': product_pool,
    '类别': ['水果', '水果', '水果', '乳制品', '面包', '洗护用品', '洗护用品', '洗涤用品'],
    '品牌': ['品牌A', '品牌A', '品牌B', '品牌B', '品牌C', '品牌C', '品牌D', '品牌D']
})
# 添加单价列
product_data['单价'] = [random.randint(1, 10) for _ in range(len(product_pool))]
# 打印商品详情表
print("\n商品详情表:")
print(product_data.to_string(index=False))
# 将销售数据表保存为CSV文件
sales_data.to_csv('sales_data.csv', index=False)
# 将商品详情表保存为CSV文件
product_data.to_csv('product_data.csv', index=False)

接下来,我们将读取这两个CSV文件,并进行数据清洗和表合并。我们使用pd.read_csv()函数读取CSV文件,然后使用dropna()函数去除销售数据表中的空值行。使用pd.merge()函数按照产品名称进行左连接合并销售数据表和商品详情表。

import pandas as pd
# 读取销售数据表和商品详情表
sales_data = pd.read_csv('sales_data.csv')
product_data = pd.read_csv('product_data.csv')
# 数据清洗
# 去除销售数据表中的空值行
sales_data = sales_data.dropna()
# 合并销售数据表和商品详情表
merged_data = pd.merge(sales_data, product_data, on='产品名称', how='left')
# 打印合并后的数据
print("合并后的数据:")
print(merged_data.to_string(index=False))

最后,我们对合并后的数据进行合理的分组,并计算销售额。我们使用groupby()函数按照类别进行分组,并使用agg()函数计算总数量和总价格。然后,我们计算销售额,并将其添加到分组后的数据中。

# 按类别分组,并计算销售额
grouped_data = merged_data.groupby('类别').agg({'数量': 'sum', '价格': 'sum'})
# 打印按类别分组的销售数据
print("\n按类别分组的销售数据:")
print(grouped_data.to_string())
# 计算销售额
grouped_data['销售额'] = grouped_data['数量'] * grouped_data['价格']
# 打印按类别分组的销售额
print("\n按类别分组的销售额:")
print(grouped_data.to_string())

完整代码

数据生成代码

import pandas as pd
import random
# 创建商品池子
product_pool = ['苹果', '香蕉', '橙子', '牛奶', '面包', '洗发水', '牙刷', '洗衣液']
# 生成销售数据表
sales_data = pd.DataFrame({
    '订单编号': [f'订单{i}' for i in range(1, 11)],
    '产品名称': [random.choice(product_pool) for _ in range(10)],
    '数量': [random.randint(1, 10) for _ in range(10)]
})
# 添加价格列
sales_data['价格'] = [random.randint(10, 100) for _ in range(10)]
# 打印销售数据表
print("销售数据表:")
print(sales_data.to_string(index=False))
# 生成商品详情表
product_data = pd.DataFrame({
    '产品名称': product_pool,
    '类别': ['水果', '水果', '水果', '乳制品', '面包', '洗护用品', '洗护用品', '洗涤用品'],
    '品牌': ['品牌A', '品牌A', '品牌B', '品牌B', '品牌C', '品牌C', '品牌D', '品牌D']
})
# 添加单价列
product_data['单价'] = [random.randint(1, 10) for _ in range(len(product_pool))]
# 打印商品详情表
print("\n商品详情表:")
print(product_data.to_string(index=False))
# 将销售数据表保存为CSV文件
sales_data.to_csv('sales_data.csv', index=False)
# 将商品详情表保存为CSV文件
product_data.to_csv('product_data.csv', index=False)

数据操作代码

import pandas as pd
# 读取销售数据表和商品详情表
sales_data = pd.read_csv('sales_data.csv')
product_data = pd.read_csv('product_data.csv')
# 数据清洗
# 去除销售数据表中的空值行
sales_data = sales_data.dropna()
# 合并销售数据表和商品详情表
merged_data = pd.merge(sales_data, product_data, on='产品名称', how='left')
# 按类别分组,并计算销售额
grouped_data = merged_data.groupby('类别').agg({'数量': 'sum', '价格': 'sum'})
# 打印合并后的数据和计算结果
print("合并后的数据:")
print(merged_data.to_string(index=False))
print("\n按类别分组的销售数据:")
print(grouped_data.to_string())
# 计算销售额
grouped_data['销售额'] = grouped_data['数量'] * grouped_data['价格']
print("\n按类别分组的销售额:")
print(grouped_data.to_string())
相关文章
|
4月前
|
测试技术 Python
Python装饰器:为你的代码施展“魔法”
Python装饰器:为你的代码施展“魔法”
318 100
|
4月前
|
开发者 Python
Python列表推导式:一行代码的艺术与力量
Python列表推导式:一行代码的艺术与力量
491 95
|
5月前
|
Python
Python的简洁之道:5个让代码更优雅的技巧
Python的简洁之道:5个让代码更优雅的技巧
313 104
|
5月前
|
开发者 Python
Python神技:用列表推导式让你的代码更优雅
Python神技:用列表推导式让你的代码更优雅
562 99
|
4月前
|
缓存 Python
Python装饰器:为你的代码施展“魔法
Python装饰器:为你的代码施展“魔法
245 88
|
4月前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
919 68
|
5月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
723 7
|
5月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
608 102
|
5月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
405 104
|
5月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
314 103

推荐镜像

更多