关注了这个问题十几天了,有法律人士也引出了几份判决书,确实让我等从业者后背发凉,老老实实上班写个爬虫,怎么还有牢狱之险呢?
仔细探究这些案例,我总结出如下观点
- 遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,可见下面的大众点评百度案;
- 限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
- 对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
- 最后,审视清楚自己爬的内容,以下是绝不能碰的红线(包括但不限于):
- 爬取用户个人数据非法牟利,包括模拟登录他人账号,如下一案例中操作账号加粉
- 新三板挂牌公司涉窃取30亿条个人信息,非法牟利超千万
- 爬取商业数据造成不正当竞争,如下一案例中破解并监控竞品 GPS 数据
- 竞争燃藜·深圳中院|利用网络爬虫技术攫取他人数据正当性认定
- 爬取大量带有知识产权的数据用于商业目的,如下一案例中爬取大量视频内容
- 全文页 - 中国裁判文书网
- 最后附上2014年百度地图因大量引用大众点评的评论被起诉,最后法院的判决也说明遵守 Robots 协议并不是没有问题,大量爬取造成的不正当竞争依然会违法。
- 大众点评向百度索赔9000万 法院判赔300万
以上你会发现,爬虫本身并不违法,而是看你使用的方式和目的,还要看是不是商业用途。
这就像摄影一样,人人都可以拍照,技术宅也可以用无人机满天拍,但如果你拍人家隐私、在禁区里拍、偷拍盗版人家的作品,对不起那是违法。
如何看待马蜂窝被指游记、评论抓取抄袭其他旅游平台,大量内容和抽奖造假一事? - 知乎
顺便关注下近期马蜂窝事件,大众点评如果起诉,可能又增一个典型案例。