程序人生 - 爬虫究竟是合法还是违法的?

简介: 程序人生 - 爬虫究竟是合法还是违法的?

关注了这个问题十几天了,有法律人士也引出了几份判决书,确实让我等从业者后背发凉,老老实实上班写个爬虫,怎么还有牢狱之险呢?

仔细探究这些案例,我总结出如下观点

  1. 遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,可见下面的大众点评百度案;
  2. 限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
  3. 对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
  4. 最后,审视清楚自己爬的内容,以下是绝不能碰的红线(包括但不限于):

以上你会发现,爬虫本身并不违法,而是看你使用的方式和目的,还要看是不是商业用途。

这就像摄影一样,人人都可以拍照,技术宅也可以用无人机满天拍,但如果你拍人家隐私、在禁区里拍、偷拍盗版人家的作品,对不起那是违法。

如何看待马蜂窝被指游记、评论抓取抄袭其他旅游平台,大量内容和抽奖造假一事? - 知乎

顺便关注下近期马蜂窝事件,大众点评如果起诉,可能又增一个典型案例。

目录
相关文章
|
4月前
|
数据采集 人工智能 数据可视化
Scala多线程爬虫程序的数据可视化与分析实践
Scala多线程爬虫程序的数据可视化与分析实践
|
6月前
|
数据采集 存储 JSON
使用Perl脚本编写爬虫程序的一些技术问题解答
使用Perl脚本编写爬虫程序的一些技术问题解答
|
9天前
|
数据采集 JavaScript 前端开发
使用Python打造爬虫程序之破茧而出:Python爬虫遭遇反爬虫机制及应对策略
【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外,还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略,同时遵守规则和法律法规,确保爬虫的稳定性和合法性。
|
3月前
|
数据采集 数据挖掘 开发者
使用RoboBrowser库实现JD.com视频链接爬虫程序
使用RoboBrowser库实现JD.com视频链接爬虫程序
|
3月前
|
数据采集 JavaScript 前端开发
TypeScript 和 jsdom 库创建爬虫程序示例
TypeScript 和 jsdom 库创建爬虫程序示例
|
6月前
|
数据采集 数据处理 Python
Python爬虫程序中的504错误:原因、常见场景和解决方法
Python爬虫程序中的504错误:原因、常见场景和解决方法
|
8月前
|
数据采集 Serverless 数据安全/隐私保护
如何解决爬虫程序中登录时遇到的动态Token问题
如何解决爬虫程序中登录时遇到的动态Token问题
|
11月前
|
数据采集 缓存 Python
如何多方面的优化python爬虫程序速度
如何多方面的优化python爬虫程序速度
|
数据采集 消息中间件 分布式计算
爬虫识别-读取预处理后的数据到爬虫识别程序|学习笔记
快速学习爬虫识别-读取预处理后的数据到爬虫识别程序。
94 0
爬虫识别-读取预处理后的数据到爬虫识别程序|学习笔记
|
数据采集 JSON Ubuntu
飞天加速计划·高校学生在家实践——教务系统查成绩Python爬虫程序
期末考试刚结束,查成绩需要登录到教务系统,比较繁琐。而成绩只有老师在系统中录入之后才能查到,我们也不知道老师什么时候录成绩,又很急着想知道每一门课的成绩。想到的解决办法就是24小时不停地访问教务系统,不停地查成绩。如果出了新的成绩,就给我发邮件。 之前写过一个教务系统Python爬虫程序,这次通过学生活动免费领取了阿里云的服务器,把Python程序放在服务器上定时运行,这让我成为班里每一门课都是第一个知道成绩的人
飞天加速计划·高校学生在家实践——教务系统查成绩Python爬虫程序