Google 段落排名算法(Passage Ranking)全解读

简介: 去年 10 月,Google 透露了几个基于 AI 的新功能,其中包含了段落排名。2021 年 2 月,段落排名算法开始在美国正式上线了。 我认为这是影响深远一个排序算法,因为很多信息型搜索和内容站的排名将受到影响,而且长期来看将对内容生态产生影响。 ## 什么是 Google 段落排名算法(Passage Ranking) ![passage ranking1.jpeg](http

去年 10 月,Google 透露了几个基于 AI 的新功能,其中包含了段落排名。2021 年 2 月,段落排名算法开始在美国正式上线了。
我认为这是影响深远一个排序算法,因为很多信息型搜索和内容站的排名将受到影响,而且长期来看将对内容生态产生影响。

什么是 Google 段落排名算法(Passage Ranking)

passage ranking1.jpeg
以上是 Google 原文中的排名算法的示例图
对于具体的搜索词,Google 会返回跟搜索词主题最相关的网页,而有一些大而全的网页虽然包含相关的内容,但因为太全面,整个网页的主题宽泛,反而获取不到排名。

Google 段落排名算法,就是对于这批大而全的网页,只要部分段落内容是跟搜索词匹配,网页的排名会有额外的提升。也即是在排名时,颗粒度将细化到段落。

Google 工程师 Martin Splitt 举了个例子:
Google 会识别出每个网页的主题,比如网页 A 是土豆主题,网页 B 是番茄主题。还有个非常丰富的网页 C,包含了土豆和番茄的内容。这个被判断为蔬菜主题。
在搜索排序时,Google 会找到一批主题跟 Query 匹配的网页。比如当用户搜索土豆时,就返回了土豆主题的网页。
因为 Google 无法理解土豆和蔬菜的关联关系,所以并没有出现蔬菜的排名(即便包含土豆的内容),只会出现土豆的排名。
而通过段落算法,Google能识别出这个网页是蔬菜主题,但其中一部分是讲土豆的。因此会把这部分段落内容拿出来,参与到土豆的排名中。
我花了个简单的图:
20210303110958.jpg

2021/2/11 Google 段落排名算法已上线

Google 在 Twitter 宣布:段落排名算法已经于 2021/2/11 在美国+英语范围内上线,后续将在英语的其他地区、其他语言和地区上线。
20210303111042.jpg

注:后续上线情况将在博客和公众号保持更新。

段落排名算法的预计影响

sensor.jpg
上图是 Sensor 的排名监控情况,能看出段落算法上线时排名有明显变化

Google 称,整体上段落排名算法会对 7% 的搜索产生影响。更具体的影响有以下几个方面:

  • 内容型网站将受到影响。段落排名算法主要针对内容,所以一些内容型网站将受到明显影响。比如一个较短的文章之前在某个特定关键词有排名,现在前面忽然插入了一个长文网页的排名
  • 电商网站影响较小。因为电商网站的文本内容较少,段落排名算法无法生效,尤其是产品列表页。产品详情页可能会有一些影响。
  • 长网页有明显利好。长网页会有明显的排名和流量的提升。因为算法就是针对那些有相关内容,但篇幅较长的内容
  • 信息型搜索影响明显。因为信息型搜索一般都是内容型网站的结果
  • 长期来讲,对内容生态有帮助。一方面对 SEO 编辑来讲,日常会针对搜索词来组织内容,有些内容一篇就能写完的,为了命中搜索词非要拆开,算法上线后就不需要拆开了;另一方面还有一批不太会 SEO,但有专业能力的写作者,在算法上线前因为 Query 命中的问题没有获得应有的流量,算法上线后也会明显受益。通过这两方面,Google 在引导站长和写作者更专注于内容质量。

Google 段落排名算法是按照段落索引?

search-engine-1.png
上图是搜索引擎的简单模型,本次段落算法主要影响索引检索器这个部分,不影响索引构建部分
有人会问,Google是否将网页打散为段落,改为段落去索引,然后去排名。
Google 的回应是,并没有对段落单独索引,仍是以网页维度索引和排名。不过段落内容会作为附加的排名因素
也就是说,Google 主要是做加法,在之前索引和排序的基础上,如果有个网页的段落内容命中了 query,在排名上会有提升。

针对段落排名算法,SEO 需要做什么

Google 的建议仍是不需要做什么针对性的改动。只是 Google 可以更好的理解网页的内容,并且可以针对网页的不同部分内容进行打分。
我的建议也是,对于 SEO 编辑来讲,以后可以更专注于内容的生产,不用刻意的对内容进行分割

怎么才能主动命中段落算法呢?比如文本内容多长才是段落?
Martin Splitt 说这个算法依赖算法和机器学习,所以一直在调整,并没有固定的长度,可能是几个词,也可能是一句话。

另外,能否退出这个段落算法?
答案是否定的。这个排名是搜索结果中的自然排名,并不是插入的排名(Martin Splitt 的原话是,这个是 SERP 的蓝色链接),所以无法退出

参考文档

相关文章
|
算法 存储
算法学习之路|PAT Ranking
Programming Ability Test (PAT) is organized by the College of Computer Science and Technology of Zhejiang University.
1154 0
|
6天前
|
算法 数据安全/隐私保护 计算机视觉
基于二维CS-SCHT变换和LABS方法的水印嵌入和提取算法matlab仿真
该内容包括一个算法的运行展示和详细步骤,使用了MATLAB2022a。算法涉及水印嵌入和提取,利用LAB色彩空间可能用于隐藏水印。水印通过二维CS-SCHT变换、低频系数处理和特定解码策略来提取。代码段展示了水印置乱、图像处理(如噪声、旋转、剪切等攻击)以及水印的逆置乱和提取过程。最后,计算并保存了比特率,用于评估水印的稳健性。
|
3天前
|
算法
m基于BP译码算法的LDPC编译码matlab误码率仿真,对比不同的码长
MATLAB 2022a仿真实现了LDPC码的性能分析,展示了不同码长对纠错能力的影响。短码长LDPC码收敛快但纠错能力有限,长码长则提供更强纠错能力但易陷入局部最优。核心代码通过循环进行误码率仿真,根据EsN0计算误比特率,并保存不同码长(12-768)的结果数据。
21 9
m基于BP译码算法的LDPC编译码matlab误码率仿真,对比不同的码长
|
4天前
|
算法
MATLAB|【免费】融合正余弦和柯西变异的麻雀优化算法SCSSA-CNN-BiLSTM双向长短期记忆网络预测模型
这段内容介绍了一个使用改进的麻雀搜索算法优化CNN-BiLSTM模型进行多输入单输出预测的程序。程序通过融合正余弦和柯西变异提升算法性能,主要优化学习率、正则化参数及BiLSTM的隐层神经元数量。它利用一段简单的风速数据进行演示,对比了改进算法与粒子群、灰狼算法的优化效果。代码包括数据导入、预处理和模型构建部分,并展示了优化前后的效果。建议使用高版本MATLAB运行。
|
6天前
|
算法 计算机视觉
基于高斯混合模型的视频背景提取和人员跟踪算法matlab仿真
该内容是关于使用MATLAB2013B实现基于高斯混合模型(GMM)的视频背景提取和人员跟踪算法。算法通过GMM建立背景模型,新帧与模型比较,提取前景并进行人员跟踪。文章附有程序代码示例,展示从读取视频到结果显示的流程。最后,结果保存在Result.mat文件中。
|
6天前
|
资源调度 算法 块存储
m基于遗传优化的LDPC码OMS译码算法最优偏移参数计算和误码率matlab仿真
MATLAB2022a仿真实现了遗传优化的LDPC码OSD译码算法,通过自动搜索最佳偏移参数ΔΔ以提升纠错性能。该算法结合了低密度奇偶校验码和有序统计译码理论,利用遗传算法进行全局优化,避免手动调整,提高译码效率。核心程序包括编码、调制、AWGN信道模拟及软输入软输出译码等步骤,通过仿真曲线展示了不同SNR下的误码率性能。
10 1
|
6天前
|
存储 算法 数据可视化
基于harris角点和RANSAC算法的图像拼接matlab仿真
本文介绍了使用MATLAB2022a进行图像拼接的流程,涉及Harris角点检测和RANSAC算法。Harris角点检测寻找图像中局部曲率变化显著的点,RANSAC则用于排除噪声和异常点,找到最佳匹配。核心程序包括自定义的Harris角点计算函数,RANSAC参数设置,以及匹配点的可视化和仿射变换矩阵计算,最终生成全景图像。
|
6天前
|
算法 Serverless
m基于遗传优化的LDPC码NMS译码算法最优归一化参数计算和误码率matlab仿真
MATLAB 2022a仿真实现了遗传优化的归一化最小和(NMS)译码算法,应用于低密度奇偶校验(LDPC)码。结果显示了遗传优化的迭代过程和误码率对比。遗传算法通过选择、交叉和变异操作寻找最佳归一化因子,以提升NMS译码性能。核心程序包括迭代优化、目标函数计算及性能绘图。最终,展示了SNR与误码率的关系,并保存了关键数据。
19 1
|
6天前
|
算法 调度
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
|
6天前
|
运维 算法
基于改进遗传算法的配电网故障定位(matlab代码)
基于改进遗传算法的配电网故障定位(matlab代码)