备案控制台

开发者社区大数据文章正文

反爬虫记录

2018-10-16 1994

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 问题网络黑产猖獗，爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据，以低廉的价格将其出售。这会极大伤害用户隐私，更让用户对产品失去信任，危害绝对不容小觑。

问题

网络黑产猖獗，爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据，以低廉的价格将其出售。这会极大伤害用户隐私，更让用户对产品失去信任，危害绝对不容小觑。对于很多互联网公司，信息甚至是其核心资产。所以无论是为保护用户隐私，亦或自身利益，防爬虫都志在必行。

不那么有效的手段

针对请求的useragent,refer等做限制。这些字段可以通过抓包工具随意修改，对于有心之人基本无效

比较有效的手段

反爬虫没有确定的方法，但有相对确定的原则:在对正常用户干扰最小的情况下最大限度地提高爬虫成本

需要明确爬虫和人类的区别，并针对这些区别制定方案。通常的做法有（成本从低到高）：

后端：

限制ip、账号、接口频率，尤其是敏感数据接口（用户信息、客户信息、订单、收藏夹等），限制维度要多。
返回假数据迷惑爬虫
设置爬虫陷阱，如正常访问看不到的链接
维护一份账号、ip、代理等的黑名单
根据具体业务分析访问行为是否合理

前端：

1.前端代码安全的情况下（如app混淆），做相关加密（MD5，nonce防重复攻击），验证请求
2.各种验证码

当然，反爬逻辑越复杂，成本也越高，需要酌情考虑。

参考

https://www.zhihu.com/question/26221432

文章标签：

数据安全/隐私保护

数据采集

tao.shi

目录

相关文章

梦回故国楼台梦

|

1月前

|

数据采集存储 XML

给你一个具体的网站，你会如何设计爬虫来抓取数据？

【2月更文挑战第23天】【2月更文挑战第75篇】给你一个具体的网站，你会如何设计爬虫来抓取数据？

梦回故国楼台梦

51 1 1

东方睿赢

|

1月前

|

数据采集开发者

如何编写有效的爬虫代码来避免网站的反爬虫机制？

如何编写有效的爬虫代码来避免网站的反爬虫机制？

东方睿赢

35 1 1

逻辑峰

|

1月前

|

数据采集数据库

爬虫增量抓取

爬虫增量抓取

逻辑峰

119 3 4

对你痴情

|

1月前

|

数据采集机器学习/深度学习安全

如何有效防爬虫？一文讲解反爬虫策略

如何有效防爬虫？一文讲解反爬虫策略

对你痴情

279 0 0

小白学大数据

|

1月前

|

数据采集 Web App开发搜索推荐

突破目标网站的反爬虫机制：Selenium策略分析

突破目标网站的反爬虫机制：Selenium策略分析

小白学大数据

79 1 1

奔跑的数据

|

1月前

|

数据采集前端开发数据挖掘

Fizzler库+C#：从微博抓取热点的最简单方法

本文介绍如何使用Fizzler库和C#构建微博热点信息爬虫。通过Fizzler的CSS选择器定位关键信息，提取热点标题和排名，实现微博内容的智能挖掘。示例代码展示单线程和多线程采集方法，并涉及代理IP使用。

奔跑的数据

28 0 0

Fizzler库+C#：从微博抓取热点的最简单方法

八百标兵奔北坡

|

1月前

|

数据采集 JavaScript 前端开发

如何判断一个网站是否采取了反爬虫措施

通过观察请求响应、分析请求频率限制和检测JavaScript动态加载来初步判断网站是否使用反爬虫措施。使用Python `requests` 发送请求并检查响应头和内容，寻找验证码、限制信息。尝试短时间内多次请求，看是否被限制。使用Selenium模拟浏览器行为，获取动态加载内容。注意，这些方法仅为初步判断，实际可能需更深入分析，并确保爬取行为合法合规。

八百标兵奔北坡

195 2 2

东方睿赢

|

1月前

|

数据采集 JavaScript 前端开发

常见的反爬虫策略有哪些？

常见的反爬虫策略有哪些？

东方睿赢

83 1 1

奔跑的数据

|

10月前

|

数据采集存储搜索推荐

Python爬虫实战：如何避免被禁止请求

爬虫是一种自动从互联网上获取数据的程序，它可以用于各种目的，例如搜索引擎、数据分析、网络安全等。然而，爬虫也可能遇到一些困难和挑战，例如被目标网站禁止请求。禁止请求是指网站通过一些技术手段，阻止或限制爬虫访问其内容，例如返回403 Forbidden或503 Service Unavailable等状态码，或者重定向到其他页面，或者要求输入验证码等。禁止请求的情况会影响爬虫的正常运行和数据获取，因此，我们需要了解如何应对和解除禁止请求的情况。

奔跑的数据

119 0 0

Python爬虫实战：如何避免被禁止请求

小白学大数据

|

10月前

|

数据采集存储数据库连接

Python爬虫中的数据存储和反爬虫策略

Python爬虫中的数据存储和反爬虫策略

小白学大数据

124 0 0

热门文章

最新文章

微服务（Microservice）那点事

Hadoop数据迁移MaxCompute最佳实践

(十) Spring Cloud构建分布式微服务架构 - SSO单点登录之OAuth2.0登录认证(1)

文件或目录的权限与属性

How to safely shut down a loading UIWebView in viewWillDisappear?

谷歌 Project Zero 公布 Windows 10 漏洞

一个好用的短连接服务，mark备用

自动更新Chromium

一篇值得思考的职业教育之路！

算法金 | K-均值、层次、DBSCAN聚类方法解析

m基于深度学习的卫星遥感图像轮船检测系统matlab仿真,带GUI操作界面

ELK与Fluentd的结合

基于GA遗传优化的混合发电系统优化配置算法matlab仿真

【题解】—— LeetCode一周小结25

《手把手教你》系列基础篇（八十一）-java+ selenium自动化测试-框架设计基础-TestNG如何暂停执行一些case（详解教程）

基于布谷鸟搜索的多目标优化matlab仿真

JavaScript小数四舍五入的代码

MaxCompute产品使用问题之整库实时需要申请什么东西

MaxCompute产品使用问题之创建了oss外表，格式指定的parquet，然后执行的写入，发现不是标准parquet的格式，该怎么办

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）