【办公自动化】用Python按时间分割txt文件中的数据

简介: 【办公自动化】用Python按时间分割txt文件中的数据

一、Python处理txt


  • Python处理txt的好处


  1. 文本分析和挖掘:Python可以用于对文本数据进行分析、挖掘和处理,从中提取有用的信息,例如情感分析、关键字提取、主题建模等。


  1. 自动化文本处理:Python可以自动化文本处理任务,如批量处理文档、搜索和替换文本、转换文本格式等。这对于提高工作效率非常有帮助。


  1. 文本清洗:Python可以用于清洗文本数据,去除不需要的字符、空格、标点符号和特殊字符,以准备数据用于进一步分析。


  1. 文本预处理:在进行自然语言处理(NLP)任务之前,通常需要对文本进行预处理,例如分词、停用词移除、词干提取等。Python提供了许多库和工具来执行这些任务。


  1. 自定义文本操作:Python允许你根据需要自定义文本操作。你可以编写自己的文本处理函数或脚本,以满足特定的需求。


  1. 文本生成:Python可以用于生成文本,例如自动生成报告、文章、电子邮件等。你可以使用模板和变量来个性化生成的文本。


  1. 文本可视化:Python的各种数据可视化库可以用于将文本数据可视化,例如制作词云图、文本热图、词频分布图等。


  1. 文本搜索:Python可以用于文本搜索和匹配,帮助你查找特定的文本模式或关键字。


  1. 与外部数据源的集成:Python可以轻松与数据库、API和其他数据源集成,以获取、处理和存储文本数据。


  1. 跨平台:Python是跨平台的,可以在多个操作系统上运行,因此你可以在不同环境中处理文本数据。


  • Python处理txt的基本方法步骤 :


1.打开文件:首先,你需要打开文本文件以便读取或写入内容。你可以使用内置的open()函数来打开文件。

# 打开文件以读取内容
with open('example.txt', 'r') as file:
    content = file.read()
# 打开文件以写入内容
with open('output.txt', 'w') as file:
    file.write('Hello, World!')


2.读取文件内容:如果你需要读取文件的内容,可以使用read()方法来读取整个文件的内容,或者使用readline()readlines()方法逐行读取。

with open('example.txt', 'r') as file:
    content = file.read()  # 读取整个文件内容
    # 或者逐行读取
    lines = file.readlines()
    for line in lines:
        print(line)


3.写入文件内容:如果你需要向文件中写入内容,可以使用write()方法将文本写入文件。

with open('output.txt', 'w') as file:
    file.write('Hello, World!')


4.关闭文件:一定要在完成文件操作后关闭文件,以释放资源并确保文件的正确保存。

file.close()


5.文本处理:一旦你读取了文本,你可以使用Python的字符串操作来处理文本数据。这包括分词、文本清洗、正则表达式匹配、字符串替换等。

# 分割文本为单词
words = content.split()
# 清洗文本,去除标点符号和特殊字符
import re
cleaned_text = re.sub(r'[^\w\s]', '', content)
# 使用正则表达式查找特定模式
pattern = r'\b\d{3}-\d{2}-\d{4}\b'  # 查找美国社会安全号码
matches = re.findall(pattern, content)
# 字符串替换
replaced_text = content.replace('old_word', 'new_word')


6.写入处理后的文本:一旦你完成了文本处理,你可以将处理后的文本写回文件。

with open('output.txt', 'w') as file:
    file.write(processed_text)


 这些是处理文本文件的基本方法。你可以根据具体的需求来组合和定制这些方法,以满足你的文本处理任务。在处理大量文本数据时,通常需要考虑内存管理和性能优化,但上述步骤是基础的文本文件处理方法。


二、用Python按时间分割txt文件中的数据


技术工具:


Python版本:3.9


代码编辑器:jupyter notebook


有一个监测系统,每隔两分钟就会记录一下监测结果,如下图所示:


现在要求按小时将数据提取,并存为新的txt文件,也就是1天会对应有24个txt文件。先整理一下思路:


1. 读取数据

2. 将每行数据的时间戳转换成“日期-小时”格式,并按此分类数据,存入字典

3. 按“日期-小时”分断,将写入数据到新的txt文件


使用`readlines()`将txt中的每一行数据读取为一个长字符串,并存入列表。数据读取如下所示。

#读取txt文件中的数据
file = open('data.txt')
lines = file.readlines()
lines[:5]


然后定义一个将时间戳转换成“日期 时间”格式的函数,以便后续调用。先导入`time, datetime`模块。`time.localtime`用于将时间戳格式化为本地时间,这样就获得一个时间序列(比如如下打印结果)。然后用`time.strftime`从时间序列中提取出我们设定的格式。此处设定的格式为`%Y-%m-%d %H`,对应年,月,日和小时。尝试调用了一下函数`timeStampToDate(1480581236)`,结果`'2016-12-01 16'`符合我们的要求。  

import time, datetime
def timeStampToDate(timeStamp):
    timeArray = time.localtime(timeStamp)
    return time.strftime("%Y-%m-%d %H", timeArray)
print("转换后的时间序列如下:\n")
timeStamp = 1480581236
timeArray = time.localtime(timeStamp)
timeArray = print(timeArray)
timeStampToDate(1480581236)


然后按“日期 小时”格式提取数据,并存入字典`data`。比如将时间是这个`2016-12-01 16`的所有数据都集中存放。此处,我们按`2016-12-01 16`为字典的键,这个时间对应的所有行都作为列表存为它的值。由于从txt文件中读取的数据是一行对应一个字符串,所以需要先分割。在txt文件中,各字段是按空格分隔的,所以此处也以空格分割,即`split(" ")`。然后调用时间戳转换函数`timeStampToDate()`将列表`row_data`中的第三个数据(时间戳)转换成设定的日期-时间格式。随后将获取到的“日期-时间”设定为字典中的键的默认值,其值为一个空列表。这样才能保证后续获取到的相同“日期-时间”的数据都集中到它的麾下。数据获取完后用`data`查看一下数据,显示正常。  

#按日期-小时提取数据,并存入字典
data = {}
for line in lines:
    row_data =line.split(" ") #将一行数据按空格分隔
    date_hour = timeStampToDate(int(row_data[2])) #将第三个数据(时间戳)转换成设定的日期-时间格式
    data.setdefault(date_hour,[]) #以日期-时间为键,相同日期-时间的数据存为它的值
    data[date_hour].append(row_data) #数据存入data字典
data


然后就准备写入数据了。由于需要写入N次,还是建立一个函数,重复调用比较方便。需要给函数传入两个参数,一个是文件名,另一个是包含数据的列表。文件名直接使用字典`data`的键,也就是要求的“日期 时间”,比如`2016-12-01 16`。`+ '.txt'`用于手动加上后缀。`a`表示添加模式,不会影响已写入的数据。由于传入的列表是个双层嵌套列表,所以需要遍历两次,才能提取到最终的数据。提取到数据后,为避免各个数据挨在一起,需要在每个数据之间插入空格。但每行最后一个数据不用插入了,因为最后一个数据带了换行符`\n`,加上空格,就会导致下一行的数据前面都有一个空格。因此如下程序用`if`语句做了限制,只有当元素不是最后一个元素,才在后面插入空格。  

#写入数据函数
def To_txt(filename, data):#filename为写入文件的路径,data为要写入数据列表.
    file = open(filename + '.txt','a')
    for i in range(len(data)):
        for j in range(len(data[i])):
            text = data[i][j]
            if j != len(data[i])-1: #判断是否最后一个元素
                text = text+' '   #若不是最后一个元素才加空格
            file.write(text)
    file.close()

写入函数写好后,就可以批量写入数据了。遍历字典`data`的所有键,调用写入函数写入即可。结果如下。


三、往期推荐


Python提取pdf中的表格数据(附实战案例)

使用Python自动发送邮件

Python操作ppt和pdf基础

Python操作word基础

Python操作excel基础

使用Python一键提取PDF中的表格到Excel

使用Python批量生成PPT版荣誉证书

使用Python批量处理Excel文件并转为csv文件

目录
相关文章
|
18天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
1月前
|
Web App开发 Python
在ModelScope中,你可以使用Python的浏览器自动化库
在ModelScope中,你可以使用Python的浏览器自动化库
17 2
|
6天前
|
测试技术 API 网络架构
Python的api自动化测试 编写测试用例
【4月更文挑战第18天】使用Python进行API自动化测试,可以结合`requests`库发送HTTP请求和`unittest`(或`pytest`)编写测试用例。以下示例: 1. 安装必要库:`pip install requests unittest` 2. 创建`test_api.py`,导入库,定义基础URL。 3. 创建继承自`unittest.TestCase`的测试类,包含`setUp`和`tearDown`方法。 4. 编写测试用例,如`test_get_users`,检查响应状态码和内容。 5. 运行测试:`python -m unittest test_api.py`
13 2
|
6天前
|
JSON 测试技术 API
Python的Api自动化测试使用HTTP客户端库发送请求
【4月更文挑战第18天】在Python中进行HTTP请求和API自动化测试有多个库可选:1) `requests`是最流行的选择,支持多种请求方法和内置JSON解析;2) `http.client`是标准库的一部分,适合需要低级别控制的用户;3) `urllib`提供URL操作,适用于复杂请求;4) `httpx`拥有类似`requests`的API,提供现代特性和异步支持。根据具体需求选择,如多数情况`requests`已足够。
11 3
|
6天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
25 0
|
7天前
|
测试技术 持续交付 API
Python的UI自动化测试
【4月更文挑战第17天】Python UI自动化测试涉及Selenium(Web)、Appium(移动应用)和PyQt(桌面应用)等框架。基本步骤包括确定测试目标、选择合适框架、安装配置、编写测试脚本、运行调试以及集成到CI/CD流程。注意自动化测试不能完全取代人工测试,应根据需求平衡使用。
8 1
|
8天前
|
前端开发 测试技术 C++
Python自动化测试面试:unittest、pytest与Selenium详解
【4月更文挑战第19天】本文聚焦Python自动化测试面试,重点讨论unittest、pytest和Selenium三大框架。unittest涉及断言、TestSuite和覆盖率报告;易错点包括测试代码冗余和异常处理。pytest涵盖fixtures、参数化测试和插件系统,要注意避免过度依赖unittest特性。Selenium的核心是WebDriver操作、等待策略和测试报告生成,强调智能等待和元素定位策略。掌握这些关键点将有助于提升面试表现。
22 0
|
8天前
|
XML Web App开发 测试技术
python的Web自动化测试
【4月更文挑战第16天】Python在Web自动化测试中广泛应用,借助Selenium(支持多浏览器交互)、BeautifulSoup(解析HTML/XML)、Requests(发送HTTP请求)和Unittest(测试框架)等工具。测试步骤包括环境搭建、编写测试用例、初始化浏览器、访问页面、操作元素、验证结果、关闭浏览器及运行报告。注意浏览器兼容性、动态内容处理和错误处理。这些组合能提升测试效率和质量。
12 6
|
16天前
|
Web App开发 测试技术 网络安全
|
21天前
|
JSON 测试技术 持续交付
自动化测试与脚本编写:Python实践指南
【4月更文挑战第9天】本文探讨了Python在自动化测试中的应用,强调其作为热门选择的原因。Python拥有丰富的测试框架(如unittest、pytest、nose)以支持自动化测试,简化测试用例的编写与维护。示例展示了使用unittest进行单元测试的基本步骤。此外,Python还适用于集成测试、系统测试等,提供模拟外部系统行为的工具。在脚本编写实践中,Python的灵活语法和强大库(如os、shutil、sqlite3、json)助力执行复杂测试任务。同时,Python支持并发、分布式执行及与Jenkins、Travis CI等持续集成工具的集成,提升测试效率和质量。

热门文章

最新文章