开发者社区开发与运维文章正文

Python写的Web spider（网络爬虫）

2015-07-29 988

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python写的Web spider：# web spider# author vince 2015/7/29import urllib2import re# get href...

Python写的Web spider：

<span style="font-size:14px;"># web spider
# author vince 2015/7/29
import urllib2
import re

# get href content
pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"'
t = set("")    # collection of url

def fecth(url):
    http_request = urllib2.Request(url)
    http_request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36')
    http_response = urllib2.urlopen(http_request)
    print http_response.code
    if http_response.code == 200:
        for i in range(0,2000):     # 2000 rows
            html = http_response.readline()
            if html == '':
                break
            else:
                a = re.search(pattern, html)
                if a:
                    for href in a.groups():
                        print href
                        t.add(href)


# main start
#if __name__ == '__main__':    
  
url = 'http://blog.csdn.net/'     # target site
t.clear()
t.add(url)
while (len(t) != 0):
    uu = t.pop()
    print uu
    fecth(uu)
</span>

如果没有设置User-Agent，有些网站会不让访问，报403

文章标签：

Python

Windows

Web App开发

数据采集

iOS开发

关键词：

Python网络

Python爬虫

Python web

web python

爬虫python

凌峯

游客5cgvdu7srsaem

8月前

运维监控数据可视化

Python 网络请求架构——统一 SOCKS5 接入与配置管理

通过统一接入端点与标准化认证，集中管理配置、连接策略及监控，实现跨技术栈的一致性网络出口，提升系统稳定性、可维护性与可观测性。

游客5cgvdu7srsaem

457 0 0

Deephub

11月前

机器学习/深度学习算法量子技术

GQNN框架：让Python开发者轻松构建量子神经网络

为降低量子神经网络的研发门槛并提升其实用性，本文介绍一个名为GQNN（Generalized Quantum Neural Network）的Python开发框架。

Deephub

290 4 4

荔枝科研社

10月前

机器学习/深度学习算法安全

【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测（Python代码实现）

荔枝科研社

442 0 0

Q一个好的名字容易让人记住你2483558220

8月前

机器学习/深度学习大数据关系型数据库

基于python大数据的青少年网络使用情况分析及预测系统

本研究基于Python大数据技术，构建青少年网络行为分析系统，旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据，运用机器学习实现精准行为预测与实时干预，推动数字治理向“数据驱动”转型，为家庭、学校及政府提供科学决策支持，助力青少年健康上网。

Q一个好的名字容易让人记住你2483558220

691 2 2

Q一个好的名字容易让人记住你2483558220

9月前

JavaScript Java 大数据

基于python的网络课程在线学习交流系统

本研究聚焦网络课程在线学习交流系统，从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现，融合云计算、大数据与人工智能，推动教育公平与教学模式创新，具有重要理论价值与实践意义。

Q一个好的名字容易让人记住你2483558220

297 2 2

蓝易云

10月前

运维 Linux 开发者

Linux系统中使用Python的ping3库进行网络连通性测试

以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性，并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。

蓝易云

661 18 18

蓝易云

11月前

JSON 网络安全数据格式

Python网络请求库requests使用详述

总结来说，`requests`库非常适用于需要快速、简易、可靠进行HTTP请求的应用场景，它的简洁性让开发者避免繁琐的网络代码而专注于交互逻辑本身。通过上述方式，你可以利用 `requests`处理大部分常见的HTTP请求需求。

蓝易云

784 51 51

荔枝科研社

9月前

机器学习/深度学习算法 PyTorch

【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究（Python代码实现）

荔枝科研社

249 1 1

荔枝科研社

9月前

机器学习/深度学习算法 PyTorch

【DQN实现避障控制】使用Pytorch框架搭建神经网络，基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究（Matlab、Python实现）

荔枝科研社

396 0 0

荔枝科研社

10月前

机器学习/深度学习算法调度

基于遗传算法GA算法优化BP神经网络（Python代码实现）

荔枝科研社

621 0 0

Python写的Web spider（网络爬虫）

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python写的Web spider（网络爬虫）

热门文章

最新文章

相关课程

相关电子书

推荐镜像