收录标准(借鉴):
一个新网站只要在百度的三次抓取中保持了3000字以上的原创内容、稳定的页面、静态化的html、合理的标题及描述、稳定的栏目及导航,那么这个网站的收录就不会出现太大的问题。
1、站的内容至少也要在5篇及以上,并且在3000字以上的原创内容(更容易被搜索引擎认可);
抓取原理总结整理:
1、抓取(第一阶段:大小通吃)
广度优先抓取:广度优先抓取是按照网站的树形结构,对一个的层进行的抓取,如果此层没有抓取完成,蜘蛛不会进行下一层的搜索。
(不要出现孤岛链接,也就是说这个链接没有栏目关系)
说明:
1、内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被收录。
2、链接层次较浅的页面。过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
3、如果是动态网页,请控制参数的数量和URL的长度。搜狗更偏好收录静态网页。重定向次数越多的页面,越有可能被 sogou spider 丢弃。
2、过滤(网页评级-PageRank)
网站的页面被抓取了并不代表一定会被收录。蜘蛛来抓取了之后,会把数据带回去,放到临时的数据库中,再进行过滤,过滤掉一些垃圾的内容或者是低质量的内容。你页面的信息如果在互联网上有大量的相同信息,搜索引擎就很有可能不为你的网页建立索引。
如果你的网站的页面顺利通过了过滤这一过程,说明页面的内容达到了搜索引擎设定的标准,页面会就会进入建立索引和输出结果这一步。
3、建立索引与输出结果(大站优先策略)
符合收录的页面之后会建立索引,我们在搜索关键词后,搜索引擎展示给我们的结果。这些结果排序是根据一系列复杂的算法来排定的。比如:页面的外链,页面与关键词的匹配度,页面的多媒体属性等。
通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户
补充说明:应该将优化的重心和出发点主要放在用户体验上,用户才是您网站内容的主要受众,是他们通过搜索引擎找到网站。过度专注于用特定的技巧获取搜索引擎自然搜索结果的排名不一定能够达到您想要的结果。
如果您网站的内容在网络上已经被重复千百遍,你的内容可能不会被搜索引擎收录,这也是为什么很多站长反映自己网站不被收录或收录减少的原因之一。
优化方向:
1、百度在收录网页时比较重视绝对地址的收录;
2、树形结构导航栏;
3、高质量内容、原创内容;
4、一个网站要想提升搜索引擎流量,肯定是给网站做进去几万,十万,二十万篇内容带来的流量更大。而不是去优化十个,二十个关键词。
5、站长应该在网站内容上多下功夫,并让搜索引擎有更多机会找到你并自动将你的网站收录