站点百度爬虫联通率低-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

站点百度爬虫联通率低

KB小秘书 2019-07-16 10:20:57 87
站点百度爬虫联通率低,请问如何解决该问题?
数据采集 弹性计算 云计算 云服务器 ECS
分享到
取消 提交回答
全部回答(1)
  • KB小秘书
    2019-07-22 11:36:44

    1、 观察百度爬虫爬行网站的时间点的访问日志,观察web服务日志是否有问题。

    2、议用户使用阿里云监控,监控系统负载,网络带宽使用率。观察系统负载以及网络带宽是否正常,如果偏高建议用户升级ECS服务器配置。

    3、建议用户使用阿里云监控,监测网站的可用性的。http://www.aliyun.com/product/jiankong/

    4、使用百度站长工具了解网站的连通率:

         A. 利用抓取异常、抓取频次工具观察抓取情况

         

       注:每个工具页面的右侧下方都有使用说明可以了解,如下:

               

                  

          B. 利用抓取诊断工具观察抓取情况

        

        

        为了保证网站对百度蜘蛛的稳定访问性能,日常需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否“抓取成功”就行了。有下面几步进行:

    A. 下拉选择分”pc”、 ”移动”进行抓取,”pc”意味着一般意义上的电脑端访问诊断,”移动”则是如手机、平板等移动设备端访问诊断。

    B. 网站主要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站高峰时间段)每天定期进行测试。

    C. 抓取失败了,点击”抓取失败”查看提示信息,如果自己没有技术能力解决问题,可以跟空间商进行沟通,然后向工具提交报错。

        

    D. 抓取成功后,也不能说就万事大吉了,还要点击”抓取成功”进去注意:提交网址、抓取网址、抓取UA、网站ip、下载时长、头部信息(服务器返回状态码、gzip等相关信息)、网页源码是否都正常。

        

    特别说明:有很多站长就光注意抓取成功,却不知网站ip可能并非自己的实际ip,还可能每隔一段时间都变。当发现ip有问题,及时跟网络商沟通,并在网站ip旁点击“报错”按钮,百度会更新网站ip,但是切记不要ip变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。

    5. 测试抓取成功并能打开,这里主要注意DNS和空间的稳定性。

        A. DNS的问题

                    --------下方为百度官方资料-------------
                    当心dns服务器不稳导致站点被屏
                    近期百度站长平台收到多个反馈,称网站从百度网页搜索消失,site查询发现连通率为0。
                     经追查发现这些网站都使用godaddy的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,Baiduspider经常解析不到ip,在Baiduspider看来,网站是死站点。
                    此前我们也发现过多起小dns服务商屏蔽Baiduspider解析请求或者国外dns服务器不稳定的案例。
                    建议站长尽可能使用国内大型服务商提供的DNS服务,如dnspod等,以保证站点的稳定解析。
                    --------上方为百度官方资料-------------

        B. 空间的稳定性

                    空间的资源不足,内存、并发连接等等,当访问量很少的时候,用户察觉不出,当用户量高流量大时候出现网站打开异常会导致时,建议用户使用云监控监控网站打开延迟以及ECS服务器性能监控,了解服务器的性能异常及时调整服务器状态。

                云监控配置方法,请查看链接:http://docs.aliyun.com/?spm=5176.775973980.2.3.ZU5cWe#/cms/User_Manual/Quick_Start&Site_Monitor

    6. 建议用户与百度收录取得联系,询问下这边连通率的问题的


    0 0
云计算
使用钉钉扫一扫加入圈子
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

推荐文章
相似问题