Python代码示例:数据清洗、表合并和分组计算销售额

简介: Python代码示例:数据清洗、表合并和分组计算销售额

Python代码示例:数据清洗、表合并和分组计算销售额

在数据分析和处理过程中,数据清洗、表合并和分组计算销售额是常见的任务。本文将使用Python编程语言演示如何进行这些操作。

首先,我们需要生成模拟的销售数据和商品详情数据。我们创建了一个包含订单编号、产品名称和数量的销售数据表,以及一个包含产品名称、类别和单价的商品详情表。我们使用随机数生成器来填充这些数据,并将它们保存为CSV文件。

import pandas as pd
import random
# 创建商品池子
product_pool = ['苹果', '香蕉', '橙子', '牛奶', '面包', '洗发水', '牙刷', '洗衣液']
# 生成销售数据表
sales_data = pd.DataFrame({
    '订单编号': [f'订单{i}' for i in range(1, 11)],
    '产品名称': [random.choice(product_pool) for _ in range(10)],
    '数量': [random.randint(1, 10) for _ in range(10)]
})
# 添加价格列
sales_data['价格'] = [random.randint(10, 100) for _ in range(10)]
# 打印销售数据表
print("销售数据表:")
print(sales_data.to_string(index=False))
# 生成商品详情表
product_data = pd.DataFrame({
    '产品名称': product_pool,
    '类别': ['水果', '水果', '水果', '乳制品', '面包', '洗护用品', '洗护用品', '洗涤用品'],
    '品牌': ['品牌A', '品牌A', '品牌B', '品牌B', '品牌C', '品牌C', '品牌D', '品牌D']
})
# 添加单价列
product_data['单价'] = [random.randint(1, 10) for _ in range(len(product_pool))]
# 打印商品详情表
print("\n商品详情表:")
print(product_data.to_string(index=False))
# 将销售数据表保存为CSV文件
sales_data.to_csv('sales_data.csv', index=False)
# 将商品详情表保存为CSV文件
product_data.to_csv('product_data.csv', index=False)

接下来,我们将读取这两个CSV文件,并进行数据清洗和表合并。我们使用pd.read_csv()函数读取CSV文件,然后使用dropna()函数去除销售数据表中的空值行。使用pd.merge()函数按照产品名称进行左连接合并销售数据表和商品详情表。

import pandas as pd
# 读取销售数据表和商品详情表
sales_data = pd.read_csv('sales_data.csv')
product_data = pd.read_csv('product_data.csv')
# 数据清洗
# 去除销售数据表中的空值行
sales_data = sales_data.dropna()
# 合并销售数据表和商品详情表
merged_data = pd.merge(sales_data, product_data, on='产品名称', how='left')
# 打印合并后的数据
print("合并后的数据:")
print(merged_data.to_string(index=False))

最后,我们对合并后的数据进行合理的分组,并计算销售额。我们使用groupby()函数按照类别进行分组,并使用agg()函数计算总数量和总价格。然后,我们计算销售额,并将其添加到分组后的数据中。

# 按类别分组,并计算销售额
grouped_data = merged_data.groupby('类别').agg({'数量': 'sum', '价格': 'sum'})
# 打印按类别分组的销售数据
print("\n按类别分组的销售数据:")
print(grouped_data.to_string())
# 计算销售额
grouped_data['销售额'] = grouped_data['数量'] * grouped_data['价格']
# 打印按类别分组的销售额
print("\n按类别分组的销售额:")
print(grouped_data.to_string())

完整代码

数据生成代码

import pandas as pd
import random
# 创建商品池子
product_pool = ['苹果', '香蕉', '橙子', '牛奶', '面包', '洗发水', '牙刷', '洗衣液']
# 生成销售数据表
sales_data = pd.DataFrame({
    '订单编号': [f'订单{i}' for i in range(1, 11)],
    '产品名称': [random.choice(product_pool) for _ in range(10)],
    '数量': [random.randint(1, 10) for _ in range(10)]
})
# 添加价格列
sales_data['价格'] = [random.randint(10, 100) for _ in range(10)]
# 打印销售数据表
print("销售数据表:")
print(sales_data.to_string(index=False))
# 生成商品详情表
product_data = pd.DataFrame({
    '产品名称': product_pool,
    '类别': ['水果', '水果', '水果', '乳制品', '面包', '洗护用品', '洗护用品', '洗涤用品'],
    '品牌': ['品牌A', '品牌A', '品牌B', '品牌B', '品牌C', '品牌C', '品牌D', '品牌D']
})
# 添加单价列
product_data['单价'] = [random.randint(1, 10) for _ in range(len(product_pool))]
# 打印商品详情表
print("\n商品详情表:")
print(product_data.to_string(index=False))
# 将销售数据表保存为CSV文件
sales_data.to_csv('sales_data.csv', index=False)
# 将商品详情表保存为CSV文件
product_data.to_csv('product_data.csv', index=False)

数据操作代码

import pandas as pd
# 读取销售数据表和商品详情表
sales_data = pd.read_csv('sales_data.csv')
product_data = pd.read_csv('product_data.csv')
# 数据清洗
# 去除销售数据表中的空值行
sales_data = sales_data.dropna()
# 合并销售数据表和商品详情表
merged_data = pd.merge(sales_data, product_data, on='产品名称', how='left')
# 按类别分组,并计算销售额
grouped_data = merged_data.groupby('类别').agg({'数量': 'sum', '价格': 'sum'})
# 打印合并后的数据和计算结果
print("合并后的数据:")
print(merged_data.to_string(index=False))
print("\n按类别分组的销售数据:")
print(grouped_data.to_string())
# 计算销售额
grouped_data['销售额'] = grouped_data['数量'] * grouped_data['价格']
print("\n按类别分组的销售额:")
print(grouped_data.to_string())
相关文章
|
23天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
58 5
Python高性能编程:五种核心优化技术的原理与Python代码
|
26天前
|
数据挖掘 数据处理 开发者
Python3 自定义排序详解:方法与示例
Python的排序功能强大且灵活,主要通过`sorted()`函数和列表的`sort()`方法实现。两者均支持`key`参数自定义排序规则。本文详细介绍了基础排序、按字符串长度或元组元素排序、降序排序、多条件排序及使用`lambda`表达式和`functools.cmp_to_key`进行复杂排序。通过示例展示了如何对简单数据类型、字典、类对象及复杂数据结构(如列车信息)进行排序。掌握这些技巧可以显著提升数据处理能力,为编程提供更强大的支持。
32 10
|
2月前
|
Python
课程设计项目之基于Python实现围棋游戏代码
游戏进去默认为九路玩法,当然也可以选择十三路或是十九路玩法 使用pycharam打开项目,pip安装模块并引用,然后运行即可, 代码每行都有详细的注释,可以做课程设计或者毕业设计项目参考
78 33
|
2月前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
52 10
|
2月前
|
Python
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
64 18
|
2月前
|
数据可视化 Python
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
通过这些思维导图和分析说明表,您可以更直观地理解和选择适合的数据可视化图表类型,帮助更有效地展示和分析数据。
105 8
|
2月前
|
Python
探索Python中的装饰器:简化代码,增强功能
在Python的世界里,装饰器就像是给函数穿上了一件神奇的外套,让它们拥有了超能力。本文将通过浅显易懂的语言和生动的比喻,带你了解装饰器的基本概念、使用方法以及它们如何让你的代码变得更加简洁高效。让我们一起揭开装饰器的神秘面纱,看看它是如何在不改变函数核心逻辑的情况下,为函数增添新功能的吧!
|
2月前
|
程序员 测试技术 数据安全/隐私保护
深入理解Python装饰器:提升代码重用与可读性
本文旨在为中高级Python开发者提供一份关于装饰器的深度解析。通过探讨装饰器的基本原理、类型以及在实际项目中的应用案例,帮助读者更好地理解并运用这一强大的语言特性。不同于常规摘要,本文将以一个实际的软件开发场景引入,逐步揭示装饰器如何优化代码结构,提高开发效率和代码质量。
74 6
|
2月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
2月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。

热门文章

最新文章

推荐镜像

更多