Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy-阿里云开发者社区

开发者社区> 梦想橡皮擦> 正文

Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

简介: 1. 36氪(36kr)数据----写在前面 今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数据分析博文,记得关注哦~ 36kr 让一部分人先看到未来,而你今天要做的事情确实要抓取它的过去。
+关注继续查看

1. 36氪(36kr)数据----写在前面

今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数据分析博文,记得关注哦~

36kr 让一部分人先看到未来,而你今天要做的事情确实要抓取它的过去。

网址 https://36kr.com/

image

2. 36氪(36kr)数据----数据分析

36kr的页面是一个瀑布流的效果,当你不断的下拉页面的时候,数据从后台追加过来,基于此,基本可以判断它是ajax异步的数据,只需要打开开发者工具,就能快速的定位到想要的数据,我们尝试一下!

image

捕获链接如下

https://36kr.com/api/search-column/mainsite?per_page=20&page=1&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=2&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=3&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=4&_=1543840108547

在多次尝试之后,发现per_page最大可以扩展到300,但是当大于100的数据,返回的数据并不是很理想,所以,我们拟定为100即可,page就是页码,这个不断循环叠加即可。

image

上面的参数还有一个更加重要的值,叫做total_count 总共有多少文章数目。有这个参数,我们就能快速的拼接出来,想要的页码了。

3. 36氪(36kr)数据----创建scrapy项目

scrapy startproject kr36 

4. 36氪(36kr)数据----创建爬虫入口页面

scrapy genspider Kr36 "www.gaokaopai.com"

5. 36氪(36kr)数据----编写url生成器

页面起始地址start_urls为第一页数据,之后会调用parse函数,在函数内容,我们去获取total_count这个参数
这个地方,需要注意 yield 返回数据为Request() 关于他的详细说明,请参照
https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/request-response.html

所有参数清单,参数名字起得好,基本都能代表所有的意思了。比较重要的是urlcallback

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])
class Kr36Spider(scrapy.Spider):
    name = 'Kr36'
    allowed_domains = ['36kr.com']

    start_urls = ['https://36kr.com/api/search-column/mainsite?per_page=100&page=1&_=']
    def parse(self, response):
        data = json.loads(response.body_as_unicode())
        totle = int(data["data"]["total_count"])
        #totle = 201

        for page in range(2,int(totle/100)+2):
            print("正在爬取{}页".format(page),end="")
            yield Request("https://36kr.com/api/search-column/mainsite?per_page=100&page={}&_=".format(str(page)), callback=self.parse_item)

6. 36氪(36kr)数据----解析数据

在解析数据过程中,发现有时候数据有缺失的情况发生,所以需要判断一下 app_views_countmobile_views_countviews_countfavourite_num 是否出现在字典中。

注意下面代码中的Kr36Item类,这个需要提前创建一下

Kr36Item


class Kr36Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    app_views_count = scrapy.Field() # APP观看数量
    mobile_views_count = scrapy.Field() # 移动端观看数量
    views_count = scrapy.Field() # PC观看数量
    column_name = scrapy.Field() # 类别
    favourite_num = scrapy.Field() # 收藏数量
    title = scrapy.Field() # 标题
    published_at = scrapy.Field() # 发布时间
    is_free = scrapy.Field() # 是否免费
    username = scrapy.Field()
    def parse_item(self,response):

        data = json.loads(response.body_as_unicode())
        item = Kr36Item()
        for one_item in data["data"]["items"]:
            print(one_item)
            item["app_views_count"] = one_item["app_views_count"] if "app_views_count" in one_item else 0# APP观看数量
            item["mobile_views_count"] = one_item["mobile_views_count"]  if "mobile_views_count" in one_item else 0 # 移动端观看数量
            item["views_count"] = one_item["views_count"]  if "views_count" in one_item else 0  # PC观看数量
            item["column_name"] = one_item["column_name"]  # 类别
            item["favourite_num"] = one_item["favourite_num"]  if "favourite_num" in one_item else 0  # 收藏数量
            item["title"] = one_item["title"] # 标题
            item["published_at"] = one_item["published_at"]  # 发布时间
            item["is_free"] = one_item["is_free"] if "is_free" in one_item else 0# 是否免费
            item["username"] = json.loads(one_item["user_info"])["name"]
            yield item

最后打开settings.py中的pipelines编写数据持久化代码

ITEM_PIPELINES = {
   'kr36.pipelines.Kr36Pipeline': 300,
}
import os
import csv

class Kr36Pipeline(object):
    def __init__(self):
        store_file = os.path.dirname(__file__)+'/spiders/36kr.csv'
        self.file = open(store_file,"a+",newline="",encoding="utf_8_sig")
        self.writer = csv.writer(self.file)
    def process_item(self, item, spider):
        try:
            self.writer.writerow((
                item["title"],
                item["app_views_count"],
                item["mobile_views_count"],
                item["views_count"],
                item["column_name"],
                item["favourite_num"],
                item["published_at"],
                item["is_free"],
                item["username"]
            ))
            print("数据存储完毕")
        except Exception as e:
            print(e.args)

    def close_spider(self,spider):
        self.file.close()

7. 36氪(36kr)数据----获取数据

运行上述代码,没有做过多的处理,也没有调整并发速度,也没有做反爬措施。跑了一下,大概获取到了69936条数据,和预估的差了300多条,问题不大,原因没细查,哈哈哈哈

image

更多内容,欢迎关注 https://dwz.cn/r4lCXEuL

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面 今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数据分析博文,记得关注哦~ 36kr 让一部分人先看到未来,而你今天要做的事情确实要抓取它的过去。
9321 0
Hadoop大数据挖掘从入门到进阶实战
1.概述   大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。
1648 0
数据挖掘敲门砖--Python爬虫入门
Python爬虫.jpg WHAT 数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。 数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此) 数据分析方向:需要数理知识支撑,比如概率论,统计学等 数据挖掘方向:需要懂得主流算法的原理及应用,数据库的原理和操作 科学研究方向:通常是科学家们在深入研究数据挖掘的相关基础理论和算法 但是看完简介,好像和爬虫没什么关系? 接着往下看。
2189 0
php爬虫:知乎用户数据爬取和分析
php爬虫爬取知乎用户数据分析
2558 0
Python入门教程:Day01-初识Python
Python简介 Python的历史 1989年圣诞节:Guido von Rossum开始写Python语言的编译器。1991年2月:第一个Python编译器(同时也是解释器)诞生,它是用C语言实现的(后面又出现了Java和C#实现的版本Jython和IronPython,以及PyPy、Brython、Pyston等其他实现),可以调用C语言的库函数。
2672 0
基础篇:数据库 SQL 入门教程(一)
基础篇:数据库 SQL 入门教程(一)
23 0
Python爬虫入门教程 6-100 蜂鸟网图片爬取之一
1. 蜂鸟网图片简介 国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为 http://image.fengniao.com/ ,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习,不要用于商业目的,不出意外,蜂鸟是有版权保护的网站。
1411 0
Python爬虫之简书七日热门数据爬取(异步加载详解)
最近在家干活,好几天没更新了,最近好友程兄也开始写简书了,大家可以多看看,讲的很详细(我毕竟懒);正好碰到他问异步加载的问题,那我今天就已简书七日热门为例,给大家讲讲异步加载的数据怎么爬。
855 0
+关注
梦想橡皮擦
专栏100例写作模式先行者
63
文章
1
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载