爬虫实例1-爬取新闻列表和发布时间

简介:


一、新建工程

scrapy  startproject shop

 

二、Items.py文件代码:

import scrapy

 

class  ShopItem(scrapy.Item):

    title = scrapy.Field()

    time = scrapy.Field()

 

三、shopspider.py文件爬虫代码

#  -*-coding:UTF-8-*-

import scrapy

from shop.items  import ShopItem

 

class  shopSpider(scrapy.Spider):

    name = "shop"

    allowed_domains =  ["news.xxxxxxx.xx.cn"]

    start_urls = ["http://news.xxxxx.xxx.cn/hunan/"]

   

    def parse(self,response):

item  = ShopItem()

item['title']  =  response.xpath("//div[@class='txttotwe2']/ul/li/a/text()").extract()

item['time']  =  response.xpath("//div[@class='txttotwe2']/ul/li/font/text()").extract()

yield  item

 

四、pipelines.py文件代码(打印出内容):

注意:如果在shopspider.py文件中打印出内容则显示的是unicode编码,而在pipelines.py打印出来的信息则是正常的显示内容。

 

class  ShopPipeline(object):

    def process_item(self, item, spider):

        count=len(item['title'])

        print 'news count: ' ,count

        for i in range(0,count):

            print 'biaoti: '+item['title'][i]

            print 'shijian: '+item['time'][i]

        return item

 

五、爬取显示的结果:

root@kali:~/shop#  scrapy crawl shop --nolog

news count:  40

biaoti:  xxx建成国家食品安全示范城市

shijian:  (2017-06-16)

biaoti: xxxx考试开始报名

……………………

…………………..

 本文转自 老鹰a  51CTO博客,原文链接:http://blog.51cto.com/laoyinga/1940001


相关文章
|
8月前
|
数据采集 搜索推荐 API
Python 原生爬虫教程:京东商品列表页面数据API
京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
数据采集 XML 数据格式
Haskell网络爬虫:视频列表获取案例分析
Haskell网络爬虫:视频列表获取案例分析
|
消息中间件 数据采集 数据库
小说爬虫-02 爬取小说详细内容和章节列表 推送至RabbitMQ 消费ACK确认 Scrapy爬取 SQLite
小说爬虫-02 爬取小说详细内容和章节列表 推送至RabbitMQ 消费ACK确认 Scrapy爬取 SQLite
152 2
|
数据采集 大数据 关系型数据库
如何使用 PHP 爬虫爬取大数据
**摘要:** 本文探讨了如何使用PHP爬虫处理大数据。从爬虫基本概念出发,讨论了PHP爬虫框架如Goutte和PHP-Crawler。在爬取大数据时,需明确目标网站、数据类型和量,编写爬虫程序,包括数据提取、反爬策略如设置User-Agent和访问频率控制。同时,采用并发处理(多线程)和分布式爬虫策略提升效率。最后,强调了合法合规使用爬虫技术的重要性。
|
数据采集 Python 前端开发
python语言通过简单爬虫实例了解文本解析与读写
python|通过一个简单爬虫实例简单了解文本解析与读写
|
数据采集 存储 Web App开发
python爬虫编写实例分享
python爬虫编写实例分享
138 0
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
数据采集 存储 NoSQL
Java爬虫-爬取疫苗批次信息
为了解决疫苗批号查询难题,作者因个人情况需查询脊髓灰质炎灭活疫苗信息,发现官网查询系统不便使用。于是,技术大展身手,编写了一个Java爬虫,利用Hutool、Jsoup和Spring Boot的MongoDB库,抓取并存储了中国食品药品检定研究院等多家机构近十年的疫苗批次信息。代码示例展示了如何爬取数据并存入MongoDB,方便按需查询。
214 0
|
数据采集 存储 JavaScript
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
Buzz库网络爬虫实例:快速爬取百度搜索实时热点