领导给我一堆无序、杂乱的数据,我写了一个Python自动化脚本!

简介: 领导给我一堆无序、杂乱的数据,我写了一个Python自动化脚本!

问题抽丝剥茧

这个问题也算是群友答疑。如果说同事或者老板给你一堆这样的数据,你估计会抓狂,该怎么处理呢?

image.png

仔细观察上面数据可以发现,该数据有如下2个主要特点:


① 每一行的数据长度不同。第一行和第三行有4个属性,第二行有5个属性。

② 不同行的属性值,并不是对应排列。

解题思路剖析

你可能会想,直接用Excel分裂。其实并不可行,因为不同行的属性值,并不是对应排列。Excel分列导致的结果就是:不同的属性,存在于相同的行。



放弃Excel那条路之后,我就只能寻求Python的帮助了。我们要根据数据的特点,选择合适的数据存储方法。最终问题就转化为:构造数据源,然后创建DataFrame即可。


我曾经写了一篇文章《DataFrame的创建方式》,这篇文章总结了10种创建DataFrame的方法,我下面把链接提供给大家学习一下。


DataFrame的10种创建方式:http://suo.im/6tEjDJ


然后根据我们这个数据的特点,我选择构造字典组成的列表这样一个数据,并利用它来创建DataFrame。

image.png

观察我提供的这个案例和待解决的问题,简直异曲同工。我们同样可以将上述数据的每一行,都变成一个个键值对组成的字典。然后最外层用一个大列表,将所有的字典包含起来。


完整代码

1)首先需要构造练习数据

import pandas as pd
x = {"信息":["年龄:12;性别:女;身高:22;爱好:打球",
             "年龄:12;说明:历史数据;性别:女;身高:22;爱好:打球",
             "生日:2月3日;年龄:12;性别:女;爱好:打球"]
    }
df = pd.DataFrame(x)
df


结果如下:

image.png


2)构造字典组成的列表

tmps_list = []
for data in df["信息"].values:
    tmp_dict = {}
    for kv in data.split(";"):
        k, v = kv.split(":")
        tmp_dict[k] = v
    tmps_list.append(tmp_dict)
tmps


结果如下:

image.png


3)创建DataFrame

df = pd.DataFrame(tmps)
df


结果如下:

image.png

相关文章
|
1天前
|
SQL API Python
`bandit`是一个Python静态代码分析工具,专注于查找常见的安全漏洞,如SQL注入、跨站脚本(XSS)等。
`bandit`是一个Python静态代码分析工具,专注于查找常见的安全漏洞,如SQL注入、跨站脚本(XSS)等。
19 8
|
1天前
|
网络协议 安全 Shell
`nmap`是一个开源的网络扫描工具,用于发现网络上的设备和服务。Python的`python-nmap`库允许我们在Python脚本中直接使用`nmap`的功能。
`nmap`是一个开源的网络扫描工具,用于发现网络上的设备和服务。Python的`python-nmap`库允许我们在Python脚本中直接使用`nmap`的功能。
22 7
|
2天前
|
算法 数据挖掘 数据处理
搜索新境界:Python二分查找变种实战,精准定位数据不是梦!
【7月更文挑战第13天】二分查找算法以O(log n)效率在有序数组中查找数据。基础算法通过不断分割数组对比中间元素。Python实现变种包括:1) 查找目标值的第一个出现位置,找到后向左搜索;2) 查找目标值的最后一个出现位置,找到后向右搜索。这些变种在数据分析和索引构建等场景中极具价值,提升处理效率。
|
3天前
|
存储 算法 搜索推荐
算法进阶之路:Python 归并排序深度剖析,让数据排序变得艺术起来!
【7月更文挑战第12天】归并排序是高效稳定的排序算法,采用分治策略。Python 实现包括递归地分割数组及合并已排序部分。示例代码展示了如何将 `[12, 11, 13, 5, 6]` 分割并归并成有序数组 `[5, 6, 11, 12, 13]`。虽然 $O(n log n)$ 时间复杂度优秀,但需额外空间,适合大规模数据排序。对于小规模数据,可考虑其他算法。**
15 4
|
2天前
|
数据格式 Python
Python代码示例,读取excel表格,将行数据转为列数据。(10)
【7月更文挑战第10天】Python代码示例,读取excel表格,将行数据转为列数据。
16 2
|
4天前
|
机器学习/深度学习 数据采集 人工智能
探索自动化测试的边界:从脚本到智能
在软件开发领域,自动化测试已成为确保产品质量和提升开发效率的关键因素。随着人工智能和机器学习技术的飞速发展,传统的自动化测试方法正面临重大的变革。本文将从多个角度分析自动化测试的现状与未来趋势,探讨如何通过集成先进的技术手段优化测试流程,并预测自动化测试领域的发展方向。
9 1
|
1天前
|
监控 jenkins 持续交付
Python进行自动化
【7月更文挑战第9天】 Python在自动化部署中发挥关键作用,提供如Fabric、Ansible、Docker SDK和Kubernetes Client等工具。自动化部署提高效率、减少错误,确保部署一致性和可控性。例如,Fabric库简化了远程服务器的部署任务,如在多台服务器上执行Git拉取和Docker容器启动。持续集成/部署(CI/CD)结合Jenkins和Fabric,实现代码变更自动构建、测试和部署。监控和持续改进是确保应用稳定性和质量的关键,通过定期回顾、度量分析以及有效监控系统来优化流程。
9 0
|
1天前
|
数据可视化 Python
时间序列分析是一种统计方法,用于分析随时间变化的数据序列。在金融、经济学、气象学等领域,时间序列分析被广泛用于预测未来趋势、检测异常值、理解周期性模式等。在Python中,`statsmodels`模块是一个强大的工具,用于执行各种时间序列分析任务。
时间序列分析是一种统计方法,用于分析随时间变化的数据序列。在金融、经济学、气象学等领域,时间序列分析被广泛用于预测未来趋势、检测异常值、理解周期性模式等。在Python中,`statsmodels`模块是一个强大的工具,用于执行各种时间序列分析任务。
7 0
|
1天前
|
机器学习/深度学习 PyTorch TensorFlow
在深度学习中,数据增强是一种常用的技术,用于通过增加训练数据的多样性来提高模型的泛化能力。`albumentations`是一个强大的Python库,用于图像增强,支持多种图像变换操作,并且可以与深度学习框架(如PyTorch、TensorFlow等)无缝集成。
在深度学习中,数据增强是一种常用的技术,用于通过增加训练数据的多样性来提高模型的泛化能力。`albumentations`是一个强大的Python库,用于图像增强,支持多种图像变换操作,并且可以与深度学习框架(如PyTorch、TensorFlow等)无缝集成。
8 0
|
1天前
|
算法 Python
我们需要一个简单的Python脚本来作为示例。假设我们有一个名为`hello_world.py`的脚本,
我们需要一个简单的Python脚本来作为示例。假设我们有一个名为`hello_world.py`的脚本,
6 0