文档备案控制台

开发者社区开发与运维文章正文

Python写的Web spider（网络爬虫）

2015-07-29 1034

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python写的Web spider：# web spider# author vince 2015/7/29import urllib2import re# get href...

Python写的Web spider：

<span style="font-size:14px;"># web spider
# author vince 2015/7/29
import urllib2
import re

# get href content
pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"'
t = set("")    # collection of url

def fecth(url):
    http_request = urllib2.Request(url)
    http_request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36')
    http_response = urllib2.urlopen(http_request)
    print http_response.code
    if http_response.code == 200:
        for i in range(0,2000):     # 2000 rows
            html = http_response.readline()
            if html == '':
                break
            else:
                a = re.search(pattern, html)
                if a:
                    for href in a.groups():
                        print href
                        t.add(href)


# main start
#if __name__ == '__main__':    
  
url = 'http://blog.csdn.net/'     # target site
t.clear()
t.add(url)
while (len(t) != 0):
    uu = t.pop()
    print uu
    fecth(uu)
</span>

如果没有设置User-Agent，有些网站会不让访问，报403

文章标签：

Python

Windows

Web App开发

数据采集

iOS开发

关键词：

spider爬虫

python web网络

Python web爬虫

web网络爬虫

凌峯

目录

相关文章

小白学大数据

|

10月前

|

数据采集 Web App开发数据安全/隐私保护

实战：Python爬虫如何模拟登录与维持会话状态

实战：Python爬虫如何模拟登录与维持会话状态

小白学大数据

1401 1 2

小白学大数据

|

11月前

|

数据采集 Web App开发自然语言处理

新闻热点一目了然：Python爬虫数据可视化

新闻热点一目了然：Python爬虫数据可视化

小白学大数据

906 6 6

蒋星熠Jaxonic

|

10月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

767 3 3

Python异步编程实战：爬虫案例

Q一个好的名字容易让人记住你2483558220

|

10月前

|

机器学习/深度学习大数据关系型数据库

基于python大数据的青少年网络使用情况分析及预测系统

本研究基于Python大数据技术，构建青少年网络行为分析系统，旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据，运用机器学习实现精准行为预测与实时干预，推动数字治理向“数据驱动”转型，为家庭、学校及政府提供科学决策支持，助力青少年健康上网。

Q一个好的名字容易让人记住你2483558220

771 2 2

蓝易云

|

11月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

1116 19 19

小白学大数据

|

10月前

|

数据采集存储 JSON

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

小白学大数据

254 1 1

小白学大数据

|

11月前

|

数据采集存储 Web App开发

处理Cookie和Session：让Python爬虫保持连贯的"身份"

处理Cookie和Session：让Python爬虫保持连贯的"身份"

小白学大数据

631 0 2

winx_19970108018

|

10月前

|

数据采集存储 JavaScript

解析Python爬虫中的Cookies和Session管理

Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储，用于标识用户；Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。

winx_19970108018

529 0 0

小白学大数据

|

11月前

|

数据采集 Web App开发前端开发

处理动态Token：Python爬虫应对AJAX授权请求的策略

处理动态Token：Python爬虫应对AJAX授权请求的策略

小白学大数据

826 0 0

小白学大数据

|

11月前

|

数据采集网络协议 API

协程+连接池：高并发Python爬虫的底层优化逻辑

协程+连接池：高并发Python爬虫的底层优化逻辑

小白学大数据

677 0 0

热门文章

最新文章

AI时代Python金融大数据分析实战：ChatGPT让金融大数据分析插上翅膀

分享46个Python博客源代码总有一个是你想要的

python datetime模块简单记录

Python 目录操作

【Python】已解决：ERROR: Could not find a version that satisfies the requirement easyocr (from versions: n

Python DataFrame初学者指南：轻松上手构建数据表格

Python 图像处理实用指南：6~10

python中pickle使用学习-字典小程序函数化

【python】编程语言入门经典100例--11

Python中的list

Burp Suite Professional 2025.10 for Windows x64 - 领先的 Web 渗透测试软件

Windows Defender 导致 Web IIS 服务异常停止排查

百宝箱开放平台 ✖️ Web SDK

Burp Suite Professional 2025.10 发布 - Web 应用安全、测试和扫描

《深入理解Spring》过滤器（Filter）——Web请求的第一道防线

【GoGin】（0）基于Go的WEB开发框架，GO Gin是什么？怎么启动？本文给你答案

【GoGin】（1）上手Go Gin 基于Go语言开发的Web框架，本文介绍了各种路由的配置信息；包含各场景下请求参数的基本传入接收

EventLog Analyzer：高效的Web服务器日志监控与审计解决方案

AppSpider 7.5.020 发布 - Web 应用程序安全测试

如何轻松使用AWS Web应用程序防火墙？

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！