炒爬虫违法真的看不下去了

简介:   这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。  文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。

  这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。

  文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。

  因为这是侵犯公民个人信息罪,窃取/提供/售卖/非法使用个人信息(电话,住址,征信等等)。我们目前看到的几则新闻都跟个人征信,个人隐私数据非法使用有关。尤其是P2P行业和为P2P行业提供征信服务等技术支持的公司,最近处在风口浪尖,他们的公民隐私数据很多都来路不正,在暗网购买,灰色渠道收集,每个月给用户发送的营销骚扰短息消耗都是数百万人民币。

  就像我之前说的一样,你开发网站/APP是不违法的,但是你用网站/APP非法收集用户信息,或做黄赌毒/灰色地带的网站/APP就是违法。但你确不能说开发网站就是违法,取决你做的那件事情是否违法。

  这一阵好几家公司传闻被抓的新闻有点多的原因,我个人认为是P2P行业最近在被严厉整治的原因。

  最近看到不明真相的人都不敢用爬虫抓数据了,我也是无语了。二手拍卖平台爬虫无论是几年前火热的大数据时代还是这两年热炒的人工智能都是不可或缺的。无论是做舆情/数据分析/模型训练都需要大量数据,这些数据大多公司都需要靠外部抓取完成。

  那我们在抓取/使用数据时应该注意些什么,以免误入雷区呢?

  1.不要碰隐私/国防/科研相关数据。这个是大雷区。

  2.如果实在要做跟个人相关的数据研究。要注意敏感信息脱敏,去掉个人隐私方面的。

  3.公开使用有知识产权的数据,会引起商业公司间的经济纠纷。比如百度在百度地图里加上了大众点评商店信息,这就侵犯了点评的版权。这类问题大都是经济纠纷或商业公司间的竞争。但如果你只是使用点评数据做研究分析,出行业分析报告/趋势分析,这个问题就不大。

  4.花20分钟去读下《网络安全法》

  简而言之,数据的两大雷区就是隐私数据和版权数据。

目录
相关文章
|
数据采集 存储 安全
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
1107 0
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
|
数据采集 搜索推荐 机器人
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
665 0
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
|
数据采集 监控 定位技术
程序人生 - 爬虫究竟是合法还是违法的?
程序人生 - 爬虫究竟是合法还是违法的?
320 0
|
6月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
6月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
881 31
|
11月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
458 6
|
5月前
|
数据采集 存储 NoSQL
分布式爬虫去重:Python + Redis实现高效URL去重
分布式爬虫去重:Python + Redis实现高效URL去重
|
6月前
|
数据采集 XML 存储
Headers池技术在Python爬虫反反爬中的应用
Headers池技术在Python爬虫反反爬中的应用
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
769 4
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
241 4