搜索引擎识别镜像、转载网页

简介:

众所周知,原创文章和转载文章,搜索引擎会更加重视原创性内容。因此,很多SEOers就提出了所谓伪原创的手法。简单的说,伪原创就是对原创性文章进行相应的修改,从而企图达到让搜索引擎认为他是原创性文章的目的。

  下面,介绍地介绍一下搜索引擎识别镜像、转载网页的方法:

1. 转载网页的识别:例如:对于网页A,B,要判断这两个页面是否互为转载网页,那么搜索引擎首先会把这两个网页的主体内容(如文章内容)划分为若干个独立的区域,再按顺序对这些区域进行比较,如果这些区域的内容大部分都是相同,那么搜索引擎就认为这两个页面互为转载页面;然后,再根据网页建立的时间等多方面的因素判断哪个是原创页面,哪个是转载页面。

2.镜像页面的识别:例如:对于网页A,B,要判断这两个页面是否互为镜像网页,那么搜索引擎首先会把这两个网页划分为若干个独立的区域,再按顺序对这些区域进行比较,如果这些区域的内容完全相同,那么搜索引擎就认为这两个页面互为镜像页面;然后,再根据网页建立的时间等多方面的因素判断哪个是原创页面,哪个是镜像页面。

从上面的内容里,我们得知了搜索引擎识别转载页面的原理。简单地说,如要我们要让搜索引擎认为我们的内容是原创内容,那么首要的条件就是我们的网页跟另外一个网页在主体内容(如文章内容)上存在明显的差别。例如:一篇文章有四个段落,当有三个段落的内容存在差异时,会被认为是原创网页,而两个段落内容存在80%以上的差别上,才会被认为是不同的段落。



本文转自william_xu 51CTO博客,原文链接:http://blog.51cto.com/williamx/721652,如需转载请自行联系原作者

相关文章
|
17天前
|
机器学习/深度学习 人工智能 搜索推荐
当情绪也能被“量化”:数据如何悄悄改变心理健康分析与治疗
当情绪也能被“量化”:数据如何悄悄改变心理健康分析与治疗
131 14
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
1991 2
|
Java Maven
maven打包出现没有主类的原因,详细分析并解决
本文分析了使用Maven打包Java应用时找不到或无法加载主类的问题,通常是由于未配置主类或打包时未包含依赖,并通过添加Maven插件解决了依赖问题,同时指出了JavaFX应用可能遇到的运行时组件缺失的错误。
901 1
maven打包出现没有主类的原因,详细分析并解决
|
搜索推荐 PHP 数据库
SEO外链自动发布外链工具网站源码
这套程序相当简洁,只有几个主程序和调用文件,无需数据库,无需安装,只要将文件上传到PHP环境就可以运行了,对PHP版本也要求较低,建议采用PHP5.6或者以上。
415 1
SEO外链自动发布外链工具网站源码
|
缓存 NoSQL 物联网
这些年背过的面试题——个人项目篇
本文是技术人面试系列个人项目篇,作者总结了一些自己的实战项目经验,一文带你详细了解,欢迎收藏!
|
安全 网络安全 数据安全/隐私保护
2023HW-8月53个0day,1day汇总含POC、EXP
2023HW-8月(10-15)53个0day,1day汇总含POC、EXP
1221 20
|
存储 运维 监控
运维面试必看的22个项目经验(真实) 学会薪资翻倍
运维面试必看的22个项目经验(真实) 学会薪资翻倍
3305 0
|
数据采集 搜索推荐 算法
什么是谷歌蜘蛛池?它有什么用?
答案是:谷歌蜘蛛池就是GPC爬虫池,它可以快速收录网站页面。 谷歌蜘蛛池的概念 谷歌蜘蛛池(Google Spider Pool)通常指的是一组Googlebot,也就是谷歌的网络爬虫。 这些网络爬虫的主要任务是通过爬行互联网上的网页内容,收集和更新网站信息,并为谷歌搜索引擎建立索引。 什么是Googlebot? Googlebot是谷歌公司的网页抓取机器人,它会按照特定算法在网络上爬行,收集网页信息。 Googlebot能够处理所有类型的网页内容,无论是文字、图片,还是视频等,都可以被Googlebot抓取和处理。
544 0
什么是谷歌蜘蛛池?它有什么用?
|
数据采集 搜索推荐 算法
什么是谷歌蜘蛛池?具体有什么用?
答案是:谷歌蜘蛛池就是GPC爬虫池,可以快速收录网站页面。 谷歌蜘蛛池概述 谷歌蜘蛛池,又称Googlebot池,是由谷歌爬虫或"蜘蛛"组成的一种资源池。 这些蜘蛛在互联网上爬行,寻找新的和更新的网页,并将这些信息带回谷歌的索引。 谷歌蜘蛛的工作原理 谷歌蜘蛛从已知的网页开始,然后通过网页上的链接找到新的网址。 在找到新的网址后,它们会抓取这些页面的内容,并使用复杂的算法来决定这些页面在搜索结果中的排名。
751 0
什么是谷歌蜘蛛池?具体有什么用?
|
存储 SQL 缓存
Google 大规模监控系统 --Monarch
Google 大规模监控系统 --Monarch
489 0
Google 大规模监控系统 --Monarch