这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。
文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。
因为这是侵犯公民个人信息罪,窃取/提供/售卖/非法使用个人信息(电话,住址,征信等等)。我们目前看到的几则新闻都跟个人征信,个人隐私数据非法使用有关。尤其是P2P行业和为P2P行业提供征信服务等技术支持的公司,最近处在风口浪尖,他们的公民隐私数据很多都来路不正,在暗网购买,灰色渠道收集,每个月给用户发送的营销骚扰短息消耗都是数百万人民币。
就像我之前说的一样,你开发网站/APP是不违法的,但是你用网站/APP非法收集用户信息,或做黄赌毒/灰色地带的网站/APP就是违法。但你确不能说开发网站就是违法,取决你做的那件事情是否违法。
这一阵好几家公司传闻被抓的新闻有点多的原因,我个人认为是P2P行业最近在被严厉整治的原因。
最近看到不明真相的人都不敢用爬虫抓数据了,我也是无语了。二手拍卖平台爬虫无论是几年前火热的大数据时代还是这两年热炒的人工智能都是不可或缺的。无论是做舆情/数据分析/模型训练都需要大量数据,这些数据大多公司都需要靠外部抓取完成。
那我们在抓取/使用数据时应该注意些什么,以免误入雷区呢?
1.不要碰隐私/国防/科研相关数据。这个是大雷区。
2.如果实在要做跟个人相关的数据研究。要注意敏感信息脱敏,去掉个人隐私方面的。
3.公开使用有知识产权的数据,会引起商业公司间的经济纠纷。比如百度在百度地图里加上了大众点评商店信息,这就侵犯了点评的版权。这类问题大都是经济纠纷或商业公司间的竞争。但如果你只是使用点评数据做研究分析,出行业分析报告/趋势分析,这个问题就不大。
4.花20分钟去读下《网络安全法》
简而言之,数据的两大雷区就是隐私数据和版权数据。