备案控制台

开发者社区大数据文章正文

反爬虫记录

2018-10-16 2098

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 问题网络黑产猖獗，爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据，以低廉的价格将其出售。这会极大伤害用户隐私，更让用户对产品失去信任，危害绝对不容小觑。

问题

网络黑产猖獗，爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据，以低廉的价格将其出售。这会极大伤害用户隐私，更让用户对产品失去信任，危害绝对不容小觑。对于很多互联网公司，信息甚至是其核心资产。所以无论是为保护用户隐私，亦或自身利益，防爬虫都志在必行。

不那么有效的手段

针对请求的useragent,refer等做限制。这些字段可以通过抓包工具随意修改，对于有心之人基本无效

比较有效的手段

反爬虫没有确定的方法，但有相对确定的原则:在对正常用户干扰最小的情况下最大限度地提高爬虫成本

需要明确爬虫和人类的区别，并针对这些区别制定方案。通常的做法有（成本从低到高）：

后端：

限制ip、账号、接口频率，尤其是敏感数据接口（用户信息、客户信息、订单、收藏夹等），限制维度要多。
返回假数据迷惑爬虫
设置爬虫陷阱，如正常访问看不到的链接
维护一份账号、ip、代理等的黑名单
根据具体业务分析访问行为是否合理

前端：

1.前端代码安全的情况下（如app混淆），做相关加密（MD5，nonce防重复攻击），验证请求
2.各种验证码

当然，反爬逻辑越复杂，成本也越高，需要酌情考虑。

参考

https://www.zhihu.com/question/26221432

文章标签：

数据安全/隐私保护

数据采集

tao.shi

目录

相关文章

霍格沃兹测试开发muller老师

|

测试技术 UED

测试方案有点难？ChatGPT助你轻松编写测试方案！

使用ChatGPT辅助编写测试方案，以高级搜索功能为例，涉及关键词搜索、过滤条件、界面兼容性、错误处理等测试点。首先明确测试需求，如按作者、时间范围和分类搜索，产品形态为App和Web应用。然后，通过提示词逐步细化方案，包括App的移动设备适配、耗电量和内存占用测试。通过不断优化提示词，确保测试方案全面覆盖功能性能、用户体验及专项测试内容。

霍格沃兹测试开发muller老师

208 1 1

TiAmoZhang

|

存储 Serverless

MATLAB实战 | 梯形积分法

在科学实验和工程应用中，函数关系往往是不知道的，只有实验测定的一组样本点和样本值，这时就无法使用integral函数计算其定积分。

TiAmoZhang

721 1 1

w风雨无阻w

|

设计模式 UED

二十三种设计模式：解锁软件开发的神器：命令模式与撤销重做功能

二十三种设计模式：解锁软件开发的神器：命令模式与撤销重做功能

w风雨无阻w

300 0 0

你挚爱的强哥

设置VSCode运行任务命令快捷键Alt+R，通常用于npm start(对频繁使用该命令可节省50%的输入命令行打字时间)

设置VSCode运行任务命令快捷键Alt+R，通常用于npm start(对频繁使用该命令可节省50%的输入命令行打字时间)

你挚爱的强哥

197 0 0

编程乐趣

|

开发框架供应链 JavaScript

一个简单、功能完整的开源WMS仓库管理系统

一个简单、功能完整的开源WMS仓库管理系统

编程乐趣

1059 0 0

码上分享code

|

9月前

|

供应链搜索推荐数据可视化

《电商管理：精准营销与客户忠诚度培育》

本文概述了电商管理的重要性和关键领域，包括供应链管理、客户关系管理、数据管理和营销推广管理。文章指出，有效的电商管理能帮助企业应对激烈的市场竞争、多变的消费者需求和技术快速更新等挑战，实现高效运营和可持续发展。特别介绍了“板栗看板”这一创新工具，强调其在提升电商管理效率方面的显著作用。

码上分享code

182 3 3

《电商管理：精准营销与客户忠诚度培育》

cqtianxin1

|

11月前

|

JavaScript

Node.js GET/POST请求

10月更文挑战第6天

cqtianxin1

133 2 2

Node.js GET/POST请求

小周sir

|

11月前

|

JavaScript 前端开发开发者

探索JavaScript原型链：深入理解与实战应用

【10月更文挑战第21天】探索JavaScript原型链：深入理解与实战应用

小周sir

186 1 1

长梦

|

前端开发 Java 数据库

Java一分钟之-Spring WebFlux：响应式编程

【6月更文挑战第16天】Spring WebFlux是Spring Framework 5中的非阻塞Web框架，采用Reactor和响应式编程，支持在Netty等服务器上运行。它提供非阻塞IO和函数式路由，提升并发性能。常见问题包括阻塞操作误用、背压处理不当和对响应式编程理解不足。通过代码示例展示了如何设置路由和处理器函数。学习和实践Spring WebFlux有助于开发高性能Web应用。

长梦

508 8 8

游客zn7mvnkypuy76

|

存储人工智能算法

程序与技术分享：7z命令行压缩解压详解

程序与技术分享：7z命令行压缩解压详解

游客zn7mvnkypuy76

442 0 0

热门文章

最新文章

轻量应用服务器支持带宽套餐升级至流量包套餐流程说明

阿里企业邮箱登录入口地址

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

【实测】windows安装部署go实录（超详细）

业内首款云原生技术中台产品云原生 Stack 来了！

网络编程--基础TCP

GNU make manual 翻译( 一百四十七)

Linux学习（一）：查看文件目录的几种常用方式

Dalvik 虚拟机的垃圾收集简介

StarRocks：Connect Data Analytics with the World

当AI遇上癌症：聊聊个性化治疗的新可能

别再满世界找日志了：聊聊如何用AI帮运维团队快速排查故障

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

《AI协同供应链调度困局：从需求拆解到落地增效的全流程实践》

基于springboot的大学生创新能力比赛系统

AI智能体框架怎么选？7个主流工具详细对比解析

当MySQL遇见AI：使用Vector扩展实现智能语义搜索

基于python的网络课程在线学习交流系统

Github 12.3kstar, 3分钟起步做中后台？Go+Vue 脚手架，把权限、代码生成、RBAC 都封装好了

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

2025云栖大会，阿里云百炼邀请您的参与和见证