Python爬虫入门教程 17-100 CSDN博客抓取数据-阿里云开发者社区

Python爬虫入门教程 17-100 CSDN博客抓取数据

2019-04-30 1053

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1.写在前面写了一段时间的博客了，忽然间忘记了，其实博客频道的博客也是可以抓取的其实这事情挺简单的，打开CSDN博客首页，他不是有个最新文章么，这个里面都是最新发布的文章。打开F12抓取一下数据API，很容易就获取到了他的接口提取链接长成这个样子https://blog.

1.写在前面

写了一段时间的博客了，忽然间忘记了，其实博客频道的博客也是可以抓取的

其实这事情挺简单的，打开CSDN博客首页，他不是有个最新文章么，这个里面都是最新发布的文章。

打开F12抓取一下数据API，很容易就获取到了他的接口

提取链接长成这个样子

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000

发现博客最新文章是一个瀑布流页面，不断下拉，只有一个参数shown_offset 在变化，按照我多年的行医经验，这个参数是个时间戳，而且肯定是上一次数据最后一条的时间戳。

基于这个理论，看一下数据，咦，猜对了~

博客返回的数据看一下，是否对味

2.CSDN博客撸代码

这个步骤就非常简单了，就是通过requests去抓取这个链接就好了

import requests
import pymongo
import time

START_URL = "https://www.csdn.net/api/articles?type=more&category=newarticles&shown_offset={}"
HEADERS = {
    "Accept":"application/json",
    "Host":"www.csdn.net",
    "Referer":"https://www.csdn.net/nav/newarticles",
    "User-Agent":"你自己的浏览器配置",
    "X-Requested-With":"XMLHttpRequest"
}
def get_url(url):
    try:
        res = requests.get(url,
                           headers=HEADERS,
                           timeout=3)

        articles = res.json()
        if articles["status"]:
            need_data = articles["articles"]
            if need_data:
                collection.insert_many(need_data)  # 数据插入
                print("成功插入{}条数据".format(len(need_data)))
            last_shown_offset = articles["shown_offset"]  # 获取最后一条数据的时间戳
            if last_shown_offset:
                time.sleep(1)
                get_url(START_URL.format(last_shown_offset))
    except Exception as e:
        print(e)
        print("系统暂停60s，当前出问题的是{}".format(url))

        time.sleep(60) # 出问题之后，停止60s，继续抓取
        get_url(url)

数据获取到了，当然要象征性的保存一下，mongo数据库的操作在上一篇文章，你可以去翻翻。

Python爬虫入门教程 17-100 CSDN博客抓取数据

1.写在前面

2.CSDN博客撸代码

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python爬虫入门教程 17-100 CSDN博客抓取数据

1.写在前面

2.CSDN博客撸代码

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像