WordPress纯PHP代码实现记录搜索引擎蜘蛛爬行记录-阿里云开发者社区

开发者社区> 主机优惠> 正文

WordPress纯PHP代码实现记录搜索引擎蜘蛛爬行记录

简介: 在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况。每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便。最好的办法就是在线直接打开看蜘蛛爬行记录。为此,我们可以免插件使用纯PHP代码来实现这个功能,以下是具体实现代码。
+关注继续查看

在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况。每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便。最好的办法就是在线直接打开看蜘蛛爬行记录。为此,我们可以免插件使用纯PHP代码来实现这个功能,以下是具体实现代码。

// 记录蜘蛛访问记录    
    function get_naps_bot(){  
    $useragent = strtolower($_SERVER['HTTP_USER_AGENT']);  
    if (strpos($useragent, 'googlebot') !== false){  
    return 'Googlebot';  
    }  
    if (strpos($useragent, 'bingbot') !== false){  
    return 'Bingbot';  
    }  
    if (strpos($useragent, 'slurp') !== false){  
    return 'Yahoobot';  
    }  
    if (strpos($useragent, 'baiduspider') !== false){  
    return 'Baiduspider';  
    }  
    if (strpos($useragent, 'sogou web spider') !== false){  
    return 'Sogouspider';  
    }  
    if (strpos($useragent, 'haosouspider') !== false){  
    return 'HaosouSpider';  
    }  
    if (strpos($useragent, 'yodaobot') !== false){  
    return 'YodaoBot';  
    }  
    return false;  
    }  
    function nowtime(){  
    date_default_timezone_set('Asia/Shanghai');  
    $date=date("Y-m-d G:i:s");  
    return $date;  
    }  
    $searchbot = get_naps_bot(); 
    if ($searchbot) {  
    $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);  
    $url=$_SERVER['HTTP_REFERER']; 
    $addr=$_SERVER['REMOTE_ADDR']; 
    $file="robotslogs.txt";  //根目录下记录蜘蛛访问的文件
    $time=nowtime();  
    $data=fopen($file,"a");  
    $PR="$_SERVER[REQUEST_URI]";  
    fwrite($data,"[$time] - $addr - $PR - $searchbot $tlc_thispage \r\n");  
    fclose($data);  
    }  

使用说明:将以上代码插入funtion.php文件,并在网站根目录下创建一个名为robotslogs.txt的文件即可,文件名可自定义。注意需为robotslogs.txt设置可写权限,最好是777权限,755权限某些主机配置下可能存在无法写入的情况。以上代码能记录搜索蜘蛛的基本抓取信息,但有个缺陷,目前还不能记录抓取网址时的状态,比如404、404状态码等都无法显示,有知道如何获取状态码的同学请留言教我哦!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
PHP 代码片段记录
检查URL是否为图片地址 getimagesize() Function check_img($file) { $x = getimagesize($file); switch ($x['mime']) { case "image/gif": $response = 'this is a gif image.
533 0
如何实现代码自动生成?
每年大促前一个月都是奋战与忙碌的时节,不仅业务上在不断迭代创新,技术上也在推陈出新,需求推动技术变革是一个正向演进的过程,但革新是需要成本的,每一次技术与标准的革新都带来一场翻天覆地的大改造。如果我们能将需求与产物划上等号:需求即代码,那么我们只要找到两者之间的关联关系即可通过需求自动产出代码了,那岂不是乐哉美哉(diao zha tian le)。 本文主要围绕自动化生成代码的目标,讲述我们在这一过程中的所思所想,以及我们在618期间的阶段成果实践。
2808 0
10 个 WordPress 的代码语法高亮插件
1. Developer Formatter 该插件使用 GeSHi 高亮引擎,支持超过110种语言,包括 PHP, ASP, Html, JavaScript, CSS, Java, Python, Delphi, C++, C, Visual Basic 等 2.
769 0
nginx1.8.1配置SSL使用HTTPS及access.log配置记录
nginx1.8.1配置SSL使用HTTPS及access.log配置记录
1652 0
+关注
10
文章
23
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载