搜索引擎网页去重算法解析

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介:   seo优化培训:搜索引擎网页去重算法解析   以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下;   相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。
  seo优化培训:搜索引擎网页去重算法解析

  以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下;

  相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。

  即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!

  搜索爬虫抓取会产生网页重复的类型:

  1.多个URL地址指向同一网页以及镜像站点

  如:www.sina.com和www.sina.com.cn

  指向同一个站点。

  2.网页内容重复或近似重复

  如抄袭、转摘的内容,垃圾信息等

  网页内容近似重复检测的两种应用场合:

  一:在用户搜索阶段

  目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。

  二:爬虫抓取发现阶段

  对一个新的网页, SEO爬虫程序通过网页去重算法,最终决定是否对其索引。

  搜索引擎网页去重算法分析好文分享第1张

  搜索引擎架构

  近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:

  一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。

  二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。

  三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。

  四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。

  重复网页对搜索引擎的不利影响:

  正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。

  重复网页对搜索引擎的好处:

  如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。

  重复文档的处理方式:

  1.删除

  2.将重复文档分组

  近似重复网页举例:

  搜索引擎网页去重算法分析好文分享第2张

  搜索引擎网页去重算法分析好文分享第3张

  近似重复网页举例

  搜索引擎近似重复检测流程:

  搜索引擎网页去重算法分析好文分享第4张

  搜索引擎近似重复检测流程

  通用网页去重算法框架:

  搜索引擎网页去重算法分析好文分享第5张

  通用网页去重框架

  SimHash文档指纹计算方法

  搜索引擎网页去重算法分析好文分享第6张

  SimHash文档指纹计算方法

  说明:

  1)从文档中提取具有权值的特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF来确定。

  2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

  3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

  4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。

  Jacccard相似性计算方法:

  搜索引擎网页去重算法分析好文分享第7张

  Jacccard相似性计算方法

  如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2.Jaccard计算两个集合相同的元素占总元素的比例。

  如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

  在实际应用中,集合A和集合B的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

  对给定的文档A,假设经过特征抽取–哈希指纹运算后的二进制数值是:10000010

  对给定的文档B,假设经过特征抽取—哈希指纹运算后的二进制数值是:00100001

  经过比较,文档A和B的第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4.两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

  不同搜索引擎可能会以不同的海明距离值来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.
目录
相关文章
|
1月前
|
算法 前端开发 数据处理
小白学python-深入解析一位字符判定算法
小白学python-深入解析一位字符判定算法
48 0
|
1月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
41 3
|
1月前
|
搜索推荐 算法
插入排序算法的平均时间复杂度解析
【10月更文挑战第12天】 插入排序是一种简单直观的排序算法,通过不断将未排序元素插入到已排序部分的合适位置来完成排序。其平均时间复杂度为$O(n^2)$,适用于小规模或部分有序的数据。尽管效率不高,但在特定场景下仍具优势。
|
19天前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
52 4
|
19天前
|
缓存 负载均衡 算法
Linux内核中的进程调度算法解析####
本文深入探讨了Linux操作系统核心组件之一——进程调度器,着重分析了其采用的CFS(完全公平调度器)算法。不同于传统摘要对研究背景、方法、结果和结论的概述,本文摘要将直接揭示CFS算法的核心优势及其在现代多核处理器环境下如何实现高效、公平的资源分配,同时简要提及该算法如何优化系统响应时间和吞吐量,为读者快速构建对Linux进程调度机制的认知框架。 ####
|
1月前
|
机器学习/深度学习 算法 PyTorch
Pytorch-RMSprop算法解析
关注B站【肆十二】,观看更多实战教学视频。本期介绍深度学习中的RMSprop优化算法,通过调整每个参数的学习率来优化模型训练。示例代码使用PyTorch实现,详细解析了RMSprop的参数及其作用。适合初学者了解和实践。
40 1
|
1月前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
1月前
|
机器学习/深度学习 算法 PyTorch
Pytorch-SGD算法解析
SGD(随机梯度下降)是机器学习中常用的优化算法,特别适用于大数据集和在线学习。与批量梯度下降不同,SGD每次仅使用一个样本来更新模型参数,提高了训练效率。本文介绍了SGD的基本步骤、Python实现及PyTorch中的应用示例。
42 0
|
1月前
|
机器学习/深度学习 传感器 算法
Pytorch-Adam算法解析
肆十二在B站分享深度学习实战教程,本期讲解Adam优化算法。Adam结合了AdaGrad和RMSProp的优点,通过一阶和二阶矩估计,实现自适应学习率,适用于大规模数据和非稳态目标。PyTorch中使用`torch.optim.Adam`轻松配置优化器。
48 0
|
1月前
|
存储 搜索推荐 算法
【排序算法(二)】——冒泡排序、快速排序和归并排序—>深层解析
【排序算法(二)】——冒泡排序、快速排序和归并排序—>深层解析

推荐镜像

更多
下一篇
无影云桌面