开发者社区> dasein58> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

了解搜索引擎的分词技术,更好的写好网站SEO标题

简介: 今天主要以百度的中文分词技术来讲解。通过对搜索引擎分词技术的了解,可以让大家做SEO的时候更合理的去书写SEO优化中的重点,三个标签的确定。 分词技术是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于;英文单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是我、的、兄弟、姐妹。分词技术的效率直接影响到整个系统的效率。
+关注继续查看

今天主要以百度的中文分词技术来讲解。通过对搜索引擎分词技术的了解,可以让大家做SEO的时候更合理的去书写SEO优化中的重点,三个标签的确定。

分词技术是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于;英文单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是我、的、兄弟、姐妹。分词技术的效率直接影响到整个系统的效率。

富贵论坛www.fgba.net介绍的分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法:

1、基于字符串匹配的分词方法

按照匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

正向最大匹配:假设字典中最长的词语数字为m,先根据汉语标点符号及特征词把汉语切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉m这个字的最后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环,这样就可以将一个短语分成词语的组合了。

以“我是一个好人”为例,假设字典中最长词语字数为3,正向最大匹配顺序为:

1、取出短语“我是一”,检查“我是一”是否在字典中存在或是一个单字,处理方式是去掉最后面的“一”字

2、检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉一个“是”字

3、检查“我”字是否在字典中存在字典中存在或是一个单字,“我”是一个单字,将“我”输出

4、继续取出短语“是一个”,检查“是一个”是否存在字典中存在或是一个单字,处理方式是去掉最后的“个”字

5、检查短语“是一”是否存在字典中存在或是一个单字,处理方式是去掉“一”字

6、检查“是”字是否存在字典中存在或是一个单字,“是”是一个单字,将“是”字输出

7、取出短语“一个好”,检查“一个好”是否在字典中存在或是一个单字,处理方式是去掉最后的”好“字

8、检查短语“一个”,发现是字典中一个词,直接输出。

9、检查短语“好人”,发现是字典中的一个词,直接输出

10、最后输出结果为:我、是、一个、好人。

逆向最大匹配:以句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。如“富营销线下聚会在下城子镇举行”按照正向最大匹配结果为:富/营销/线/下/聚会/在/下城子镇/举行,很显然这当中产生了歧义。下城子镇是一个地名,没有被正确地切分。采用逆向最大匹配技术可以修正这个错误。例如设定一个分词节点大小为7,那么“在下城子镇举行”中很显然“举行”被分了出来,最后剩下“聚会在下城子镇”,这样一来歧义就消除了。

正向最小匹配/逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精确度 高于正向匹配度。

基于统计分词方法:直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。

分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词语。如我们搜索引擎中输入“我要减肥了”,“减肥”两字就会被判定为一个词语,现在网络上经常会出现一些新造的网络流行语如:“神马”、“犀利哥”等,这样的词也都会慢慢地被收录。分词词典只有不断更新才能满足我们日常搜索判断的需求。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python 技巧篇-官方网站打不开的情况下通过官方获取最新python安装包方法
Python 技巧篇-官方网站打不开的情况下通过官方获取最新python安装包方法
38 0
搜索公网上所有使用了SAP BSP技术的网站
搜索公网上所有使用了SAP BSP技术的网站
60 0
怎么让搜索引擎收录网站?
网站收录是每个SEOer都要解决的问题,尤其是新站百度,非常慢,要从网站的标题、内容、访问速度、建档等方面进行调整。今天网站地图SEO详细讲讲如何让网站收录。有哪些方法可以有效地让网页被搜索引擎收录?
94 0
搜索引擎提交网站链接一定会收录吗?
搜索引擎提交是否必要?搜索引擎提交网站链接一定会收录吗? 简单的答案是否定的 – 搜索引擎提交是没有必要的。现在大多数搜索引擎(最着名的是百度)通过以下链接抓取和索引页面。使用该逻辑,来自任何已编入索引的页面的单个入站链接将标识您的引擎页面。
1160 0
页面搜索引擎优化技术将提升你的排名
页面搜索引擎优化技术将提升你的排名 在页面上SEO是你可以使用的最重要的过程之一,不仅是为了获得更高的排名,而且是为了运行成功的SEO活动。 网站是所有SEO流程的焦点,如果它没有针对搜索引擎和用户进行适当优化,那么您的成功几率就会降到最低。
1301 0
ECS极简体验:从0到0.1的搭建网站环境
目标读者: 想体验云服务器的IT从业者 刚开始学习网站搭建的同学 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,帮助开发者降低 IT 成本,提升运维效率,使开发者更专注于核心业务创新。
2027 0
在网站建设过程中主要在哪几个方面为后期的网站优打好根基?
虽然说网站的搭建和网站优化是前后关系,但是我们企业要在网站搭建的过程中,就要把后期网站优化的工作全部在一起规划。
1144 0
全方位提升网站打开速度:前端、后端、新的技术
本文讲的是全方位提升网站打开速度:前端、后端、新的技术,然而,主要的好处往往不在于评审团提供的战略投资——只有少数交易会完成——而是在电视节目播放期间引发的关注:即使是几分钟的直播也能给网站带来几十万的新用户,同时能够提高几周、几个月甚至永久性的网站基本活跃水平。
2534 0
Web网站如何查看搜索引擎蜘蛛爬虫的行为
简介 本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助。需要的朋友通过本篇文章学习下吧 摘要 做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。
2629 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
O2O搜索优化实践之道
立即下载
蘑菇街广告的排序:从历史数据学习到个性化强化学习
立即下载
QQ移送页面框架优化实践
立即下载