借用百度站长、站长工具查询网站出现服务器错误和500状态码-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

借用百度站长、站长工具查询网站出现服务器错误和500状态码

皇室饭团 2015-05-25 15:25:48 12580
各位大神好,借用百度站长进行网站抓取诊断,出现抓取失败已经持续有一个多月了, ,利用阿里云检测修复也没有解决掉!!!
    目前我们网站百度搜索“时光仓 ”找不到页面,而且索引量每天都在下降,站长工具也显示收录页面下降,几乎可以说已经没有收录的状况!!!


  请问大神,是不是百度蜘蛛在访问服务器的时候,刚好服务器异常,而且蜘蛛在接下来每次来访服务器,都因服务器异常而让爬虫认为是网站打不开,时间间隔一个月后发现收录没了,大神们,这种迹象是不是表明服务器的确存在异常造成的?????? 劳烦大神们详细讲下!!!
数据采集 索引
分享到
取消 提交回答
全部回答(5)
  • weisuan
    2015-05-25 18:12:58
    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    这个问题,还要等大神来看呀.
    0 0
  • 朝夕网
    2015-05-25 15:49:52
    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    500 通常是你程序错误,直接访问没问题,抓取出问题,是不是 你的程序有 来路分析功能,然后来路检测部分有异常,可以自己用程序模拟检测 顺便查看错误具体原因
    0 0
  • 看头像
    2015-05-25 15:44:59
    这边显示网站可以打开

    站长工具查询也正常的

    0 0
  • wzhu.ali
    2015-05-25 15:40:11
    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    localhost:~ Joe$ telnet www.to-time.com 80
    Trying 115.28.76.243...
    Connected to www.to-time.com.
    Escape character is '^]'.
    HEAD / HTTP/1.1
    Host: www.to-time.com
    User-Agent: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

    HTTP/1.0 500 Internal Server Error
    Date: Mon, 25 May 2015 07:38:45 GMT
    Server: Apache/2.2.15 (CentOS)
    X-Powered-By: PHP/5.3.3
    Set-Cookie: PHPSESSID=89i6gfnis1pc3qeunkriklnqm7; path=/
    Expires: Thu, 19 Nov 1981 08:52:00 GMT
    Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
    Pragma: no-cache
    Connection: close
    Content-Type: text/html; charset=utf-8
    感觉是程序问题


    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    通过TELNET发现
    1. 服务器能正常返回http body部分。
    2. 能够正常返回http head的大部分内容,比如set-cookie

    初步推断
    php程序错误的返回了http status

    -------------------------

    回8楼皇室饭团的帖子
    那是因为你的http 的head部分的http status是500状态,但是http body部分正常。所以浏览器能解析http body的html部分,能正常显示,
    但是很多spider都会看http head部分。 而且你的head部分的第一句就是status。

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    要看看你的php程序是不是有错误的逻辑或者错误的header了500状态码

    -------------------------

    回11楼皇室饭团的帖子
    只能排查程序逻辑

    -------------------------

    回12楼皇室饭团的帖子
    不一定是来路识别, 因为正常的浏览器访问,http head的status也是500.

    -------------------------

    回17楼皇室饭团的帖子
    是的,不过为了搜索排名,建议还是要赶紧排查。
    0 0
  • 皇室饭团
    2015-05-25 15:27:47
    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
         求大神指点

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    大神们,是阿里云服务器不稳定造成的嘛?????

    -------------------------

    回3楼wzhu.ali的帖子
    大神能细说下嘛

    -------------------------

    回5楼的帖子
      网站是可以打开,百度抓取诊断怎么一直是抓取失败,而且显示服务器错误,也提交反馈了,但一直是这样。

    -------------------------

    回9楼wzhu.ali的帖子
    那这个怎么解决

    -------------------------

    回7楼朝夕网的帖子
    你说的来路分析,意思是有判断或者识别嘛

    -------------------------

    回10楼wzhu.ali的帖子
    关键我不懂程序,懂的话我立马查下, 那你能通过看前端页面判断出有错误的逻辑或者错误的header了500状态码嘛

    -------------------------

    回13楼wzhu.ali的帖子
    如何排查,大神指点下

    -------------------------

    回16楼wzhu.ali的帖子
    大神,您的意思是网站可以正常浏览,由于头部的http head的status也是500,是不是就是爬虫访问按照严格的W3C要求来执行,而由于头部http head设置没按照W3C要求执行,而判断网站打不开出现错误,造成收录不正常的

    -------------------------

    回18楼wzhu.ali的帖子
    感谢大神指点

    -------------------------

    回21楼weisuan的帖子
    目前看来是因为网站头部加了跳转造成的,现在百度抓取已经恢复正常,站长工具查询也没有500状态码了

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    还是大神好

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
              

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    现在虽已处理了500,但是www.to-time.com之前收录的页面已经所剩无几,现只能一点一点进行再优化

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    时光仓

    -------------------------

    Re借用百度站长、站长工具查询网站出现服务器错误和500状态码
    时光仓
    0 0
添加回答
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题