开发者社区> 问答> 正文

遇到过得反爬虫策略以及解决方法?

遇到过得反爬虫策略以及解决方法?

展开
收起
珍宝珠 2019-11-11 11:08:49 5158 0
3 条回答
写回答
取消 提交回答
  • 技术架构师 阿里云开发者社区技术专家博主 CSDN签约专栏技术博主 掘金签约技术博主 云安全联盟专家 众多开源代码库Commiter
    1. 动态网页
    2. ip限制
    2019-11-12 17:13:22
    赞同 展开评论 打赏
  • 1.通过headers反爬虫
    2.基于用户行为的发爬虫:(同一IP短时间内访问的频率)
    3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成)
    4.对部分数据进行加密处理的(数据是乱码)

    解决方法:
    对于基本网页的抓取可以自定义headers,添加headers的数据 使用多个代理ip进行抓取或者设置抓取的频率降低一些, 动态网页的可以使用selenium + phantomjs 进行抓取 对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。

    2019-11-11 12:43:58
    赞同 展开评论 打赏
  • 精于基础,广于工具,熟于业务。

    我遇到的反爬策略是页面元素ID会变更。解决办法就是采用相对路径来定位这个元素。因为这个元素,还有就是同元素的属性,使用xpath的表达式来定位。

    2019-11-11 11:23:30
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
代码未写,漏洞已出——谈谈设计不当导致的安全问题 立即下载
SEO学习步骤 立即下载

相关实验场景

更多