scrapy 爬取自己的博客

简介: 定义项目 # -*- coding: utf-8 -*- # items.py import scrapy class LianxiCnblogsItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.

定义项目

# -*- coding: utf-8 -*-
# items.py

import scrapy


class LianxiCnblogsItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url = scrapy.Field()
    title = scrapy.Field()
    article = scrapy.Field()
    post_date = scrapy.Field()

 

定义爬虫

# -*- coding: utf-8 -*-
# spider/cnblogs_spider.py

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

from lianxi_cnblogs.items import LianxiCnblogsItem

class MininovaSpider(CrawlSpider):

    name = 'cnblogs'
    allowed_domains = ['cnblogs.com']
    start_urls = ['http://www.cnblogs.com/hhh5460/default.html?page=%s' i+1 for i in range(11)] # 分页
    rules = [Rule(LinkExtractor(allow=['/p/\d+\.html']), 'parse_cnblogs')]

    def parse_cnblogs(self, response):
        res = LianxiCnblogsItem()
        res['url'] = response.url
        res['title'] = response.xpath("//h1/a/text()").extract()
        res['article'] = response.xpath("//div[@id=topics]").extract()
        res['post_date'] = response.xpath("//span[@id='post-date']/text()").extract()
        return res
        

 

运行爬虫

$ scrapy crawl cnblogs -o results.json

 

目录
相关文章
|
数据采集 存储 前端开发
|
Python 容器
使用 Scrapy 框架来爬取数据
创建一个 Scrapy 项目,项目文件可以直接用 scrapy 命令生成,命令如下所示:scrapy startproject doubanmovie250 这个命令可以在任意文件夹运行。如果提示权限问题,可以加 sudo 运行该命令。
206 0
|
数据采集 数据库 Python
Scrapy爬取豆瓣
使用Scrapy爬取豆瓣Top250数据
|
数据采集 Python
Python爬虫:Scrapy中runspider和crawl的区别
Python爬虫:Scrapy中runspider和crawl的区别
124 0
Python爬虫:Scrapy中runspider和crawl的区别
|
数据采集 开发工具 git
Python爬虫:scrapy直接运行爬虫
Python爬虫:scrapy直接运行爬虫
294 0
|
数据采集 存储 JSON
Scrapy爬取makepolo网站数据深入详解
题记 之前对爬虫只是概念了解多,实战少。知道网上流行的有号称免费的八爪鱼等(实际导出数据收费)。 大致知道,所有爬虫要实现爬取网页信息,需要定义正则匹配规则。
207 0
Scrapy爬取makepolo网站数据深入详解
|
数据采集 Python
Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy
爬前叨叨 第40篇博客吹响号角,爬取博客园博客~本文最终抓取到了从2010年1月1日到2019年1月7日的37W+文章,后面可以分析好多东西了呢 经常看博客的同志知道,博客园每个栏目下面有200页,多了的数据他就不显示了,最多显示4000篇博客如何尽可能多的得到博客数据,是这篇文章研究的一点点核心...
927 0
|
数据采集 Python
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下 一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒 数据分析 官方网址为 https://www.clouderwork.
1110 0
|
SQL 前端开发 数据库
scrapy简书整站爬取
数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析 整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.
2528 0
|
数据采集 NoSQL 关系型数据库
爬虫进阶:Scrapy抓取慕课网
前言   Scrapy抓取慕课网免费以及实战课程信息,相关环境列举如下: scrapy v1.5.1 redis psycopg2 (操作并保存数据到PostgreSQL) 数据表   完整的爬虫流程大致是这样的:分析页面结构 -> 确定提取信息 -> 设计相应表结构 -> 编写爬虫脚本 -> 数据保存入库;入库可以选择mongo这样的文档数据库,也可以选择mysql这样的关系型数据库。
1610 0

相关课程

更多