【python】python抓取古诗文内容保存（源码）【独一无二】-阿里云开发者社区

【python】python抓取古诗文内容保存（源码）【独一无二】

2024-08-09 119

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【python】python抓取古诗文内容保存（源码）【独一无二】

一、设计目的

使用Python语言，抓取古诗文网 古诗内容：

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “ 古诗文 ” 获取。👈👈👈

抓取内容如下：

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “ 古诗文 ” 获取。👈👈👈

二、代码分析

爬取古诗文网站上许渊冲的诗文，并将其标题、作者、地点和内容写入到一个名为 “poem20.txt” 的文本文件中。具体分析如下：

1.引入所需的模块：

requests：用于发送 HTTP 请求。
etree：lxml 库的一部分，用于解析 HTML 文档。

# 请求头如下
header = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" 
}

2.循环爬取数据：

使用 for 循环迭代 1 到 5，以获取多个页面的数据。
构建每个页面的 URL，其中作者参数是许渊冲。
使用 requests.get() 方法发送 GET 请求，获取页面的 HTML 内容。

3.解析 HTML 内容：

使用 etree.HTML() 方法将 HTML 内容解析为 Element 对象。

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “ 古诗文 ” 获取。👈👈👈

4.提取诗文信息：

使用 XPath 表达式从页面中提取标题、作者、地点和内容。
通过循环，逐个提取每篇诗文的信息。

5.写入文本文件：

将提取的标题、作者、地点和内容写入到名为 “poem20.txt” 的文本文件中。
使用 with open() 语句打开文件，以追加模式（‘a+’）写入内容。
将标题、作者和地点写入一行，将内容写入下一行，以便在文件中呈现清晰。

with open('poem20.txt', 'a+', encoding='utf-8') as f:
  f.write(title + '\n')
  f.write(author + palce)
  f.write(text)
  f.write('\n')

6.异常处理：

在各个可能出现异常的代码块中添加了 try-except 语句，以处理可能的异常情况。

爬取结果如下：

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “ 古诗文 ” 获取。👈👈👈

【python】python抓取古诗文内容保存（源码）【独一无二】

一、设计目的

二、代码分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【python】python抓取古诗文内容保存（源码）【独一无二】

一、设计目的

二、代码分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像