Python学习8

简介: Python学习8

大家好,这里是七七,今天来介绍的是数据整理代码


但由于是数据整理代码,因此会有些浅显,看不懂需要解释的地方会很少,重点是处理数据的方法。


代码1


sale_sum=sale_sum.sort_values("销量(千克)",ascending=False)


这行代码将会对上一个命令生成的"sale_sum"变量按照"销量(千克)"这一列进行降序排列。其中,"sort_values"方法用于对数据表按照指定的列进行排序,"ascending=False"表示使用降序排列。


代码2


result_df=pd.concat(
        [result_df,
         pd.DataFrame({'单品编码':[group_name],
                       '最大销量':[max_sale],
                       '最小销量':[min_sale],
                       '平均销量':[mean_sale],})],
        ignore_index=True)


- `pd.concat()` 是 Pandas 中的一个函数,用于将多个数据对象(如 DataFrame 或 Series)进行连接。

- `[result_df, pd.DataFrame({...})]` 是要连接的数据对象,其中 `result_df` 是已有的 DataFrame,`pd.DataFrame({...})` 则是将要添加到 `result_df` 中的新数据。这里用一个列表 `[result_df, pd.DataFrame({...})]` 将两个数据对象传递给了 `pd.concat()`。

- `pd.DataFrame({...})` 中的大括号 {...} 是一个包含新数据的字典。这个字典中键是要添加到 `result_df` 中的新列名,例如 '单品编码'、'最大销量'、'最小销量' 和 '平均销量',值则是相应的数据。

- `ignore_index=True` 表示连接后的 DataFrame 中的行索引将被重置为从零开始,忽略原来的索引。


代码的操作是将一个字典中的四个统计指标 ('单品编码'、'最大销量'、'最小销量'、'平均销量') 构造 DataFrame,并将其与原 DataFrame `result_df` 进行连接,然后将结果重新赋值给 `result_df` 变量。


这个操作可以用来汇总某些数据中的统计结果(如对于某一组数据,其最大、最小和平均值),将其添加到已有的 DataFrame 中,并将多组统计结果合并成一个大的 DataFrame。


pd.concat() 是 Pandas 库中的一个函数,用于将多个数据对象按照指定的轴进行连接。具体用法如下:

pd.concat(objs, axis=0, join='outer', ignore_index=False)


参数说明:


objs:一个包含需要连接的数据对象(DataFrame、Series)的列表或字典。

axis:指定连接的轴,0 表示按行连接,1 表示按列连接。

join:指定连接方式,‘outer’ 表示并集连接,‘inner’ 表示交集连接。

ignore_index:如果为 True,则重置连接后的索引。

pd.concat() 函数返回连接后的结果,可以将其赋值给一个变量进行后续处理。


使用 pd.concat() 函数可以将多个数据对象连接起来,可以是行连接(按照纵向方向堆叠)或列连接(按照横向方向拼接)。连接操作可用于合并多个数据集,扩展数据集的行数或列数,并灵活地控制连接方式等参数。


总代码


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
 
plt.rcParams['font.sans-serif'] = [u'simHei']
plt.rcParams['axes.unicode_minus'] = False
 
sale_data=pd.read_excel("./data/附件2.xlsx")
sale_data["销售日期"]=pd.to_datetime(sale_data["销售日期"])
sale_data=sale_data[["销售日期","单品编码","销量(千克)","销售单价(元/千克)"]]
sale_data=sale_data[sale_data["销售日期"]>="2023-6-24"]
sale_sum=sale_data[["单品编码","销量(千克)"]].groupby("单品编码").sum()
sale_sum=sale_sum.sort_values("销量(千克)",ascending=False)
 
buy_data=pd.read_excel("./data/附件3.xlsx")
buy_data["日期"]=pd.to_datetime(buy_data["日期"])
buy_data=buy_data[buy_data["日期"]>="2023-6-24"]
buy_data=buy_data[["单品编码","批发价格(元/千克)"]].groupby("单品编码").count()
buy_data["单品编码"]=buy_data.index
buy_data=buy_data[["单品编码"]]
buy_data.index=range(1,len(buy_data)+1)
 
data=buy_data.merge(sale_sum,on='单品编码',how="left")
data.dropna(inplace=True)
data=data.sort_values("销量(千克)",ascending=False)
data.index=range(1,len(data)+1)
data=data[data["销量(千克)"]>=2.5]
 
base_info=pd.read_excel("./data/附件1.xlsx")[["单品编码","分类名称","单品名称"]]
data=data.merge(base_info,on="单品编码",how="left")
 
sale_data["总售价"]=sale_data["销量(千克)"]*sale_data["销售单价(元/千克)"]
sale_money=sale_data[["单品编码","总售价"]].groupby("单品编码").sum()
sale_num=sale_data.groupby("单品编码").count().iloc[:,1]
sale_num.name="单数"
 
data=data.merge(sale_money,on="单品编码",how="left")
data["平均单价"]=data["总售价"]/data["销量(千克)"]
 
data=data.merge(sale_num,on="单品编码",how="left")
 
##################################
#VIKOR法
 
#对'Feature2'列进行标准化
data['Feature1']=StandardScaler().fit_transform(data[['销量(千克)']])
data['Feature2']=StandardScaler().fit_transform(data[['单数']])
 
data['F1']=(max(data['Feature1'])-data['Feature1'])/(max(data['Feature1'])-min(data['Feature1']))
data['F2']=(max(data['Feature2'])-data['Feature2'])/(max(data['Feature2'])-min(data['Feature2']))
 
data['S']=data['F1']+data['F2']
data['R']=np.maximum(data['F1'],data['F2'])
 
v=0.5
data['Q']=(v*data['S']-max(data['S'])/(min(data['S'])-max(data['S'])))+((1-v)*(data['R']-max(data['R'])/(min(data['R'])-max(data['R']))))
data=data.drop(['Feature1','Feature2','F1','F2','S','R'],axis=1)
data=data.sort_values("Q",ascending=True)
data['Q']=(max(data['Q'])-data['Q'])/(max(data['Q'])-min(data['Q']))
 
buy_data=pd.read_excel("./data/附件3.xlsx")
buy_data["日期"]=pd.to_datetime(buy_data["日期"])
buy_data=buy_data[buy_data["日期"]>="2023-6-24"]
buy_data=buy_data[['批发价格(元/千克)','单品编码']].groupby("单品编码").mean()
data=data.merge(buy_data,on="单品编码",how="left")
 
print(sale_data)
grouped=sale_data.groupby("单品编码")
result_df=pd.DataFrame(columns=['单品编码','最大销量','最小销量','平均销量'])
for group_name,group_data in grouped:
    max_sale=group_data.groupby("销售日期").sum()["销量(千克)"].max()
    min_sale = group_data.groupby("销售日期").sum()["销量(千克)"].min()
    mean_sale = group_data.groupby("销售日期").sum()["销量(千克)"].mean()
    result_df=pd.concat(
        [result_df,
         pd.DataFrame({'单品编码':[group_name],
                       '最大销量':[max_sale],
                       '最小销量':[min_sale],
                       '平均销量':[mean_sale],})],
        ignore_index=True)
data=data.merge(result_df,on="单品编码",how="left")
 
loss_data=pd.read_excel("./data/附件4.xlsx")
data=data.merge(loss_data,on="单品编码",how="left")
data["损耗率(%)"]=data["损耗率(%)"]/100
 
#######################################
#平均销量修正
data["平均销量"]=data["平均销量"]/(1-data["损耗率(%)"])
 
print(data)
data.to_csv("./q3.csv")
相关文章
|
26天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
43 3
|
1月前
|
安全 关系型数据库 测试技术
学习Python Web开发的安全测试需要具备哪些知识?
学习Python Web开发的安全测试需要具备哪些知识?
33 4
|
2月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
329 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
6天前
|
Python 容器
Python学习的自我理解和想法(9)
这是我在B站跟随千锋教育学习Python的第9天,主要学习了赋值、浅拷贝和深拷贝的概念及其底层逻辑。由于开学时间紧张,内容较为简略,但希望能帮助理解这些重要概念。赋值是创建引用,浅拷贝创建新容器但元素仍引用原对象,深拷贝则创建完全独立的新对象。希望对大家有所帮助,欢迎讨论。
|
8天前
|
存储 索引 Python
Python学习的自我理解和想法(6)
这是我在B站千锋教育学习Python的第6天笔记,主要学习了字典的使用方法,包括字典的基本概念、访问、修改、添加、删除元素,以及获取字典信息、遍历字典和合并字典等内容。开学后时间有限,内容较为简略,敬请谅解。
|
12天前
|
存储 程序员 Python
Python学习的自我理解和想法(2)
今日学习Python第二天,重点掌握字符串操作。内容涵盖字符串介绍、切片、长度统计、子串计数、大小写转换及查找位置等。通过B站黑马程序员课程跟随老师实践,非原创代码,旨在巩固基础知识与技能。
|
11天前
|
程序员 Python
Python学习的自我理解和想法(3)
这是学习Python第三天的内容总结,主要围绕字符串操作展开,包括字符串的提取、分割、合并、替换、判断、编码及格式化输出等,通过B站黑马程序员课程跟随老师实践,非原创代码。
|
8天前
|
Python
Python学习的自我理解和想法(7)
学的是b站的课程(千锋教育),跟老师写程序,不是自创的代码! 今天是学Python的第七天,学的内容是集合。开学了,时间不多,写得不多,见谅。
|
7天前
|
存储 安全 索引
Python学习的自我理解和想法(8)
这是我在B站千锋教育学习Python的第8天,主要内容是元组。元组是一种不可变的序列数据类型,用于存储一组有序的元素。本文介绍了元组的基本操作,包括创建、访问、合并、切片、遍历等,并总结了元组的主要特点,如不可变性、有序性和可作为字典的键。由于开学时间紧张,内容较为简略,望见谅。
|
8天前
|
存储 索引 Python
Python学习的自我理解和想法(4)
今天是学习Python的第四天,主要学习了列表。列表是一种可变序列类型,可以存储任意类型的元素,支持索引和切片操作,并且有丰富的内置方法。主要内容包括列表的入门、关键要点、遍历、合并、判断元素是否存在、切片、添加和删除元素等。通过这些知识点,可以更好地理解和应用列表这一强大的数据结构。