了解搜索引擎的分词技术,更好的写好网站SEO标题-阿里云开发者社区

开发者社区> dasein58> 正文

了解搜索引擎的分词技术,更好的写好网站SEO标题

简介: 今天主要以百度的中文分词技术来讲解。通过对搜索引擎分词技术的了解,可以让大家做SEO的时候更合理的去书写SEO优化中的重点,三个标签的确定。 分词技术是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于;英文单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是我、的、兄弟、姐妹。分词技术的效率直接影响到整个系统的效率。
+关注继续查看

今天主要以百度的中文分词技术来讲解。通过对搜索引擎分词技术的了解,可以让大家做SEO的时候更合理的去书写SEO优化中的重点,三个标签的确定。

分词技术是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于;英文单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是我、的、兄弟、姐妹。分词技术的效率直接影响到整个系统的效率。

富贵论坛www.fgba.net介绍的分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法:

1、基于字符串匹配的分词方法

按照匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

正向最大匹配:假设字典中最长的词语数字为m,先根据汉语标点符号及特征词把汉语切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉m这个字的最后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环,这样就可以将一个短语分成词语的组合了。

以“我是一个好人”为例,假设字典中最长词语字数为3,正向最大匹配顺序为:

1、取出短语“我是一”,检查“我是一”是否在字典中存在或是一个单字,处理方式是去掉最后面的“一”字

2、检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉一个“是”字

3、检查“我”字是否在字典中存在字典中存在或是一个单字,“我”是一个单字,将“我”输出

4、继续取出短语“是一个”,检查“是一个”是否存在字典中存在或是一个单字,处理方式是去掉最后的“个”字

5、检查短语“是一”是否存在字典中存在或是一个单字,处理方式是去掉“一”字

6、检查“是”字是否存在字典中存在或是一个单字,“是”是一个单字,将“是”字输出

7、取出短语“一个好”,检查“一个好”是否在字典中存在或是一个单字,处理方式是去掉最后的”好“字

8、检查短语“一个”,发现是字典中一个词,直接输出。

9、检查短语“好人”,发现是字典中的一个词,直接输出

10、最后输出结果为:我、是、一个、好人。

逆向最大匹配:以句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。如“富营销线下聚会在下城子镇举行”按照正向最大匹配结果为:富/营销/线/下/聚会/在/下城子镇/举行,很显然这当中产生了歧义。下城子镇是一个地名,没有被正确地切分。采用逆向最大匹配技术可以修正这个错误。例如设定一个分词节点大小为7,那么“在下城子镇举行”中很显然“举行”被分了出来,最后剩下“聚会在下城子镇”,这样一来歧义就消除了。

正向最小匹配/逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精确度 高于正向匹配度。

基于统计分词方法:直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。

分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词语。如我们搜索引擎中输入“我要减肥了”,“减肥”两字就会被判定为一个词语,现在网络上经常会出现一些新造的网络流行语如:“神马”、“犀利哥”等,这样的词也都会慢慢地被收录。分词词典只有不断更新才能满足我们日常搜索判断的需求。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4612 0
【网站SEO分析】浅谈网站换域名注意事项
这里说的网站改版,并不包含单纯的页面样式的改动,仅指原页面URL发生了改变,比如换域名、修改URL结构等。
1527 0
《SEO的艺术(原书第2版)》——3.3 理解搜索引擎流量和用户意图
本节书摘来自华章计算机《SEO的艺术(原书第2版)》一书中的第3章,第3.3节,作者:(美)恩吉(Enge, E.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
714 0
301重定向 网站SEO中权重转移的基本操作
作为一名普通用户,在浏览网页时,通过浏览器向当前网站服务器发送浏览请求,然后服务器返回一个转移跳转的状态码,接着将用户引导进入另外一个网址。这种状态码是301,301重定向不仅仅对用户适用,对搜索引擎同样适用。
1622 0
SEO网站优化有无捷径可循?
今天写这篇文章确实是有很大的感触,现在好多新人站长在优化网站的时候一旦遇到问题就去百度找现成的答案,要么就直接去问有经验的人。不经历风雨怎能见彩虹,自己从来不想想问题是怎么产生的,一味的依赖别人。
1622 0
网站SEO方法大全清单
您网站的终极SEO清单 曾经有一段时间,网页排名就像写一堆低质量的文章一样简单,用一系列关键词填充它们,并人工做一些链接建设。好吧,那绝对不是这样了。我们的SEO清单上还有很多东西。 算法更新帮助百度删除或取消了数百万页面的排名。
1349 0
SEO优化:网站优化的五大步骤
我们在做SEO优化的过程中,不能毫无头绪得去做,不然取得的效果很差,做任何事情,都要有一个好的策划,完整的方案才能做的更好。今天搜客大伟讲讲做网站优化的五大步骤:
1431 0
+关注
722
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载