如何面对博文被抓取

简介: 昨天把hexo博客的url的日期去掉了,号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候,不小心多带了一个空格,导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾,隐去了作者信息。

昨天把hexo博客的url的日期去掉了,号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候,不小心多带了一个空格,导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾,隐去了作者信息。有的给个原文连接,有的是啥也不给。

昨晚搞到1点多,才搞出来。然后轻轻松松被拿走,然后加广告。。。

所谓的CC by xxx 没有任何意义。看到有个爬虫专门把文章转换成繁体的(好几个),有个更牛逼, 把标题和作者改成自己,图片添加了自己的水印(清屏网)。

所以,花样百出,防不胜防。


首先,应该如何看待这个问题?

我认为既然选择了互联网,就拥抱这种现象吧。起点的作者总是在写文章时不时的加一句看盗版的xxx, 因为这关系到了作者的切身意义,都是钱啊。 而写博客的呢,这又是为了什么? 是为了记录。那么,被爬去也是没啥坏处的,坏就坏在盗版小说会标注作者,盗版博客会去掉作者。

怎么解决

全手工的盗版,是防不住的。关键是大量的爬虫盗版。这个可以有。爬虫通常掐头去尾,所以把作者写到博客里,把作者写到代码注释里,把作者写到demo里。如果对于盗图有意见,可以加防盗链,可以加水印,或者制作图片的时候就加上作者。





唯有不断学习方能改变! -- Ryan Miao
目录
相关文章
|
2月前
|
数据采集 监控 数据库
爬虫技术详解:从原理到实践
本文详细介绍了爬虫技术,从基本概念到实际操作,涵盖爬虫定义、工作流程及Python实现方法。通过使用`requests`和`BeautifulSoup`库,演示了如何发送请求、解析响应、提取和保存数据,适合初学者学习。强调了遵守法律法规的重要性。
343 4
|
5月前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
5月前
|
数据采集 存储 JavaScript
打造你的第一个网页爬虫:一步步走进数据抓取的世界
【8月更文挑战第31天】在数字信息泛滥的时代,能够快速获取并利用网络数据变得尤为重要。本文将带你从零开始,用Python构建一个简单的网页爬虫。我们会一起探索请求网页、解析内容、存储数据的全过程。准备好了吗?让我们揭开数据抓取的神秘面纱,开启一段代码探险之旅!
|
7月前
|
移动开发 小程序 前端开发
技术经验解读:一个简单抓取糗事百科糗事的小程序
技术经验解读:一个简单抓取糗事百科糗事的小程序
|
7月前
|
数据采集 XML 存储
技术经验分享:C#构造蜘蛛爬虫程序
技术经验分享:C#构造蜘蛛爬虫程序
43 0
|
数据采集
【安排】23行代码爬取知乎全部回答(内附源码和应用程序)
上个月行哥为了给大家推荐书单,1分钟爬取了知乎5646个回答,并统计出前十名推荐量最高的书单给大家分享,并且为了大家使用方便将该篇推文中的代码转成应用程序给大家使用,但是万万没想到 居然有小伙伴要求能不能直接让爬虫代码回答爬取下来做成应用程序
303 0
【安排】23行代码爬取知乎全部回答(内附源码和应用程序)
|
数据采集 前端开发 Python
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
|
数据采集 开发者 Python
抓包分析技术精讲|学习笔记
快速学习抓包分析技术精讲
110 0
抓包分析技术精讲|学习笔记
|
数据采集 存储 JSON
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
228 0
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
|
缓存 边缘计算 JavaScript
小说源码系统,页面性能优化的两个入手点
小说源码系统,页面性能优化的两个入手点