文档备案控制台

开发者社区大数据文章正文

Python爬虫-爬取全国各地市的邮编链接

2024-10-10 268

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫-爬取全国各地市的邮编链接

最近练习爬虫，爬取全国各地市的邮编链接，与大家分享，希望起到抛砖引玉的作用。

源代码如下：

import requests
from lxml import etree
headers = {
   
    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"

}
url = 'http://www.yb21.cn/'
res = requests.get(url, headers=headers)
tree = etree.HTML(res.content.decode())

for prov_number in range(1, 20):
    res1 = tree.xpath(f'//table/tbody/tr[2]/td/div[{prov_number}]//a')
    for post in res1:
        print(post.xpath(f'//table/tbody/tr[2]/td/div[{prov_number}]/h1/text()')[0])
        print(post.xpath('.//text()')[0])
        print(url.rstrip('/') + post.xpath('./@href')[0])

文章标签：

数据采集

Python

关键词：

Python爬虫

Python爬虫链接

爬虫链接

Python链接

bruce_xiaowei

目录

相关文章

小白学大数据

|

9月前

|

数据采集 Web App开发数据安全/隐私保护

实战：Python爬虫如何模拟登录与维持会话状态

实战：Python爬虫如何模拟登录与维持会话状态

小白学大数据

1366 1 2

小白学大数据

|

10月前

|

数据采集 Web App开发自然语言处理

新闻热点一目了然：Python爬虫数据可视化

新闻热点一目了然：Python爬虫数据可视化

小白学大数据

890 6 6

蒋星熠Jaxonic

|

9月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

756 3 3

Python异步编程实战：爬虫案例

蓝易云

|

10月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

1109 19 19

小白学大数据

|

9月前

|

数据采集存储 JSON

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

小白学大数据

243 1 1

小白学大数据

|

10月前

|

数据采集存储 Web App开发

处理Cookie和Session：让Python爬虫保持连贯的"身份"

处理Cookie和Session：让Python爬虫保持连贯的"身份"

小白学大数据

614 0 2

winx_19970108018

|

9月前

|

数据采集存储 JavaScript

解析Python爬虫中的Cookies和Session管理

Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储，用于标识用户；Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。

winx_19970108018

518 0 0

小白学大数据

|

10月前

|

数据采集 Web App开发前端开发

处理动态Token：Python爬虫应对AJAX授权请求的策略

处理动态Token：Python爬虫应对AJAX授权请求的策略

小白学大数据

801 0 0

小白学大数据

|

10月前

|

数据采集网络协议 API

协程+连接池：高并发Python爬虫的底层优化逻辑

协程+连接池：高并发Python爬虫的底层优化逻辑

小白学大数据

655 0 0

winx_19970108018

|

10月前

|

数据采集监控 Shell

无需Python：Shell脚本如何成为你的自动化爬虫引擎？

Shell脚本利用curl/wget发起请求，结合文本处理工具构建轻量级爬虫，支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性，适用于日志监控、价格追踪等场景。相比Python，具备启动快、资源占用低的优势，适合嵌入式或老旧服务器环境，复杂任务可结合Python实现混合编程。

winx_19970108018

414 0 0

热门文章

最新文章

蓝桥杯历届真题题目+解析+代码+答案（2013-2020）（JavaA、B、C组）（C++语言）（Python）

Python数据可视化三部曲之 Matplotlib 从上手到上头（下）

Python与R的异同（二）：字符串操作

python的文件与文件系统

Python学习计划（1）

Python 使用SMOTE解决数据不平衡问题(最新推荐)

python人工智能数据算法（下）（一）

用Python做一个电影订票系统

Python解决鸡兔同笼问题

6.python之random随机模块

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

实战：Python爬虫如何模拟登录与维持会话状态

解析Python爬虫中的Cookies和Session管理

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

Python异步编程实战：爬虫案例

Python爬虫技术：从基础到实战的完整教程

新闻热点一目了然：Python爬虫数据可视化

单机扛不住，我把爬虫搬上了 Kubernetes：弹性伸缩与成本优化的实战

Selenium爬虫部署七大常见错误及修复方案：从踩坑到避坑的实战指南

相关课程

更多

Python语言基础 - 函数、面向对象、异常处理

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！