Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息-阿里云开发者社区

开发者社区> 一个处女座的程序猿> 正文

Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息

简介: Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息
+关注继续查看

输出结果


后期更新……



实现代码


import scrapy

class DmozSpider(scrapy.Spider):

   name ="dmoz"

   allowed_domains = ["dmoz.org"]

   start_urls = [

       "https://dmoztools.net/Computers/Programming/Languages/Python/Resources/"

       "https://dmoztools.net/Computers/Programming/Languages/Python/Books/"

       ]

   def parse(self,response):

       filename = response.url.split("/")[-2]

       with open(filename, 'wb') as f:  

           f.write(response.body)


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
分享录制的正则表达式入门、高阶以及使用 .NET 实现网络爬虫视频教程
我发布的「正则表达式入门以及高阶教程」,欢迎学习。 课程简介 正则表达式是软件开发必须掌握的一门语言,掌握后才能很好地理解到它的威力; 课程采用概念和实验操作 4/6 分隔,帮助大家理解概念后再使用大量的实例加深对概念的理解; 实例操作是对概念最好的理解,也是学习新语言最有效的办法; 在课程中也穿插着大量软件开发的技巧和大家分享; 应该是把晦涩的正则表达式讲解的最生动的课程; 掌握了正则表达式后,您一定会觉得这是一门最值得掌握的语言。
886 0
C#使用Gzip解压缩完整读取网页内容
using System; using System.Threading; using System.Text; using System.Text.RegularExpressions; using System.
1205 0
php获取网页header信息的4种方法
php获取网页header信息的方法多种多样,就php语言来说,我知道的方法有4种, 下面逐一献上。 方法一:使用get_headers()函数 推荐指数: get_header方法最简单只要两行代码即可搞定。
700 0
python实现简易采集爬虫
#!/usr/bin/python #-*-coding:utf-8-*- # 简易采集爬虫 # 1.采集Yahoo!Answers,parseData函数修改一下,可以采集任何网站 # 2.
1164 0
+关注
一个处女座的程序猿
国内互联网圈知名博主、人工智能领域优秀创作者,全球最大中文IT社区博客专家、CSDN开发者联盟生态成员、中国开源社区专家、华为云社区专家、51CTO社区专家、Python社区专家等,曾受邀采访和评审十多次。仅在国内的CSDN平台,博客文章浏览量超过2500万,拥有超过57万的粉丝。
1701
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载