炒爬虫违法真的看不下去了

简介:   这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。  文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。

  这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。

  文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。

  因为这是侵犯公民个人信息罪,窃取/提供/售卖/非法使用个人信息(电话,住址,征信等等)。我们目前看到的几则新闻都跟个人征信,个人隐私数据非法使用有关。尤其是P2P行业和为P2P行业提供征信服务等技术支持的公司,最近处在风口浪尖,他们的公民隐私数据很多都来路不正,在暗网购买,灰色渠道收集,每个月给用户发送的营销骚扰短息消耗都是数百万人民币。

  就像我之前说的一样,你开发网站/APP是不违法的,但是你用网站/APP非法收集用户信息,或做黄赌毒/灰色地带的网站/APP就是违法。但你确不能说开发网站就是违法,取决你做的那件事情是否违法。

  这一阵好几家公司传闻被抓的新闻有点多的原因,我个人认为是P2P行业最近在被严厉整治的原因。

  最近看到不明真相的人都不敢用爬虫抓数据了,我也是无语了。二手拍卖平台爬虫无论是几年前火热的大数据时代还是这两年热炒的人工智能都是不可或缺的。无论是做舆情/数据分析/模型训练都需要大量数据,这些数据大多公司都需要靠外部抓取完成。

  那我们在抓取/使用数据时应该注意些什么,以免误入雷区呢?

  1.不要碰隐私/国防/科研相关数据。这个是大雷区。

  2.如果实在要做跟个人相关的数据研究。要注意敏感信息脱敏,去掉个人隐私方面的。

  3.公开使用有知识产权的数据,会引起商业公司间的经济纠纷。比如百度在百度地图里加上了大众点评商店信息,这就侵犯了点评的版权。这类问题大都是经济纠纷或商业公司间的竞争。但如果你只是使用点评数据做研究分析,出行业分析报告/趋势分析,这个问题就不大。

  4.花20分钟去读下《网络安全法》

  简而言之,数据的两大雷区就是隐私数据和版权数据。

目录
相关文章
|
数据采集 存储 安全
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
341 0
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
|
数据采集 搜索推荐 机器人
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
405 0
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
|
数据采集 监控 定位技术
程序人生 - 爬虫究竟是合法还是违法的?
程序人生 - 爬虫究竟是合法还是违法的?
190 0
|
11天前
|
数据采集 XML 数据处理
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页内容并进行简单的数据处理。通过学习本文,读者将了解Web爬虫的基本原理和Python爬虫库的使用方法。
|
26天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
1天前
|
数据采集 Web App开发 Java
Python 爬虫:Spring Boot 反爬虫的成功案例
Python 爬虫:Spring Boot 反爬虫的成功案例
|
1天前
|
数据采集 Python
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页上的信息。通过分析目标网页的结构,利用Python中的requests和Beautiful Soup库,我们可以轻松地提取所需的数据,并将其保存到本地或进行进一步的分析和处理。无论是爬取新闻、股票数据,还是抓取图片等,本文都将为您提供一个简单而有效的解决方案。
|
2天前
|
数据采集 存储 XML
如何利用Python构建高效的Web爬虫
本文将介绍如何使用Python语言以及相关的库和工具,构建一个高效的Web爬虫。通过深入讨论爬虫的基本原理、常用的爬虫框架以及优化技巧,读者将能够了解如何编写可靠、高效的爬虫程序,实现数据的快速获取和处理。
|
9天前
|
数据采集 Web App开发 数据可视化
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
|
10天前
|
数据采集 存储 大数据
Python爬虫:数据获取与解析的艺术
本文介绍了Python爬虫在大数据时代的作用,重点讲解了Python爬虫基础、常用库及实战案例。Python因其简洁语法和丰富库支持成为爬虫开发的优选语言。文中提到了requests(发送HTTP请求)、BeautifulSoup(解析HTML)、Scrapy(爬虫框架)、Selenium(处理动态网页)和pandas(数据处理分析)等关键库。实战案例展示了如何爬取电商网站的商品信息,包括确定目标、发送请求、解析内容、存储数据、遍历多页及数据处理。最后,文章强调了遵守网站规则和尊重隐私的重要性。
22 2