python数据分析实战

简介: python数据分析实战

通过excel表单给图片文件重命名

需求


excel表单如下,其中ksh表示考生号,sfzh表示身份证号


 


图片文件格式如下。图片文件是身份证号+“jpg”格式命名的。


 

我们的任务是通过图片名的身份证号,找到对应的考生号,然后给图片重命名为:考生号+“JPG”。因为我们的图片文件是要多余实际被录取的考生的,所以图片文件中有一些文件是在excel表单中找不到的,因此我们要将可以在excel表单找到信息的考生照片重命名后移动到新的文件夹。


代码


1. import os
2. import shutil
3. import pandas as pd
4. 
5. def mycopyfile(srcfile, dstpath):  # 复制函数
6. if not os.path.isfile(srcfile):
7. print("%s not exist!" % (srcfile))
8. else:
9.         fpath, fname = os.path.split(srcfile)  # 分离文件名和路径
10. if not os.path.exists(dstpath):
11.             os.makedirs(dstpath)  # 创建路径
12.         shutil.copy(srcfile, dstpath + fname)  # 复制文件
13. print("copy %s -> %s" % (srcfile, dstpath + fname))
14. 
15. #得到文件夹下所有文件的名字
16. filePath = '.\\图片'
17. document = os.listdir(filePath)
18. 
19. path = "E:\\桌面\\python_wolk\\公司的需求\\图片"
20. path1 = "E:\\桌面\\python_wolk\\公司的需求\\temp"
21. # os.rename(path +"\\"+document1[0], path +"\\"+"1.JPG")
22. 
23. df = pd.read_excel(".\\student_info.xls")
24. 
25. for s in document:
26. print(s)
27.     s1 = s.split(".")[0]
28. for i in range(len(df.values)):
29. if df.values[i][1] == s1:
30.             os.rename(path + "\\" + s, path + "\\" + str(df.values[i][0])+".JPG")
31.             mycopyfile(path + "\\" + str(df.values[i][0])+".JPG",path1+"\\")
32. break

将不同学校的学生转移到不同的文件夹下

需求


excel表格和图片文件如下


 

如图所示,图片文件是按照考生号+“JPG”格式命名的,我们的需求是依据图片名字,找到这个学生对应的学院,将这个学院的所有图片文件保存到一个文件夹中。


代码


1. import os
2. import shutil
3. import pandas as pd
4. 
5. def mycopyfile(srcfile, dstpath):  # 复制函数
6. if not os.path.isfile(srcfile):
7. print("%s not exist!" % (srcfile))
8. else:
9.         fpath, fname = os.path.split(srcfile)  # 分离文件名和路径
10. if not os.path.exists(dstpath):
11.             os.makedirs(dstpath)  # 创建路径
12.         shutil.copy(srcfile, dstpath + fname)  # 复制文件
13. print("copy %s -> %s" % (srcfile, dstpath + fname))
14. 
15. 
16. #得到文件夹下所有文件的名字
17. filePath = '.\\imgs'
18. document = os.listdir(filePath)
19. 
20. 
21. # document1 = os.listdir('.\\test')
22. path = "E:\\桌面\\python_wolk\\公司的需求\\imgs"
23. path1 = "E:\\桌面\\python_wolk\\公司的需求\\temp"
24. # os.rename(path +"\\"+document1[0], path +"\\"+"1.JPG")
25. 
26. 
27. df = pd.read_excel(".\\专升本学生.xls")
28. 
29. 
30. for i in range(len(df.values)):
31. if df.values[i][2] == '阜阳幼儿师范高等专科学校':
32. for s in document:
33.             s1 = s.split(".")[0]
34. if str(df.values[i][1]) == s1:
35.                 mycopyfile(path + "\\" + str(df.values[i][1]) + ".JPG", path1 + "\\")
36. #print(str(df.values[i][1])+" "+s1+" "+str(df.values[i][0]))
37. break

处理二级文件下的excel表格

需求


这两天接了公司的一个需求,要读取二级文件目录下的xlsx表格并将需要的信息存储在一张表格里。然后导入到数据库中。

第一级目录如下图所示:


二级目录如下,每一个小的文件夹有用户的表格

每个表格里有每个人的相关信息

设第一级目录中文件的个数为m,第二级目录下excel文件的个数为n,我们的任务就是就提取这m*n个excel文件中的数据。


思路:


我们先遍历得到所有二级文件名,存在一个数组里,再获取每个二级文件中的excel名字,拼接一下字符串,得到正确的excel路径,再读入到df二维数组中。

观察excel表格结构,将我们的数据取出并保存


代码:


1. import os
2. import pandas as pd
3. import datetime
4. import numpy as np
5. import math
6. import pandas as pd
7. import numpy as np
8. import xlwt
9. import matplotlib.pyplot as plt
10. 
11. 
12. filePath = 'E:\\桌面\\信息采集数据'
13. document=os.listdir(filePath)
14. 
15. 
16. book = xlwt.Workbook(encoding='utf-8',style_compression=0)
17. 
18. sheet = book.add_sheet('基本信息',cell_overwrite_ok=False)
19. 
20. cnt=1
21. for name1 in document:
22.     document_path="E:/桌面/信息采集数据/"+name1
23. print(document_path)
24. # 遍历某目录下的Excel文件名字,加入列表
25.     list1 = []
26. for file in os.listdir(document_path):
27. if file.endswith("xlsx") or file.endswith("xls"):
28.                 list1.append(file)
29. 
30. for name in list1:
31. print(document_path+"/"+name)
32. if name[0:2]=="~$":
33.             name=name[2:]
34.         df=pd.read_excel(document_path+"/"+name)
35. 
36.         s=[]
37. for i in range(16):
38. for j in range(1,9,2):
39.                 s.append(df.values[i][j])
40. 
41. for i in range(len(s)):
42.             sheet.write(cnt,i,s[i])
43.         cnt+=1
44. 
45. savepath = 'E:/桌面/学习经历.xlsx'
46. book.save(savepath)

结果:



完整的代码我上传到了这里

(2条消息) 数据处理excel脚本.zip-统计分析文档类资源-CSDN文库

目录
相关文章
|
2月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
20天前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
95 61
Python装饰器实战:打造高效性能计时工具
|
16天前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
46 20
|
3月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
168 4
数据分析的 10 个最佳 Python 库
|
2月前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
63 10
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
3月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
129 5
|
3月前
|
算法 Unix 数据库
Python编程入门:从基础到实战
本篇文章将带你进入Python编程的奇妙世界。我们将从最基础的概念开始,逐步深入,最后通过一个实际的项目案例,让你真正体验到Python编程的乐趣和实用性。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。让我们一起探索Python的世界吧!
|
3月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势

热门文章

最新文章