开发者社区> 问答> 正文

简述一下爬虫的步骤?

简述一下爬虫的步骤?

展开
收起
珍宝珠 2019-11-11 11:09:52 4245 0
2 条回答
写回答
取消 提交回答
    1. 首先了解要爬取的网站结构(不是网页结构)
    2. 明确要爬取的数据和范围(深度和广度)
    3. 分析网页结构或者数据接口
    4. 准备反反爬资源,比如代理ip池等
    5. 爬取数据(这是一个反复的过程,不断调整,不断破解网站的反爬)
    6. 保存数据
    7. 根据需要清洗数据
    2020-04-01 11:01:26
    赞同 展开评论 打赏
  • 1.确定需求;
    2.确定资源;
    3.通过url获取网站的返回数据;
    4.定位数据;
    5.存储数据。

    2019-11-11 12:46:00
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
SEO学习步骤 立即下载
函数计算最佳实践:快速开发一个分布式 Puppeteer 网页截图服务 立即下载