Web网站如何查看搜索引擎蜘蛛爬虫的行为

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 简介本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助。需要的朋友通过本篇文章学习下吧摘要做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。

简介


本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助。需要的朋友通过本篇文章学习下吧


摘要

做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。


下面我们针对nginx服务器进行分析,日志文件所在目录  /usr/local/nginx/logs/access.log 


access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。


Linux shell命令


1. 百度蜘蛛爬行的次数

cat /var/log/nginx/access.log | grep Baiduspider | wc

最左面的数值显示的就是爬行次数。


bf98954625c2b3eab7b0751237725e19.png-wh_


2. 百度蜘蛛的详细记录(Ctrl C可以终止)

cat /var/www/log/nginx/access.log | grep Baiduspider


也可以用下面的命令:

cat /var/log/nginx/access.log | grep Baiduspider | tail -n 10
cat /var/log/nginx/access.log | grep Baiduspider | head -n 10

只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。


3. 百度蜘蛛抓取首页的详细记录

cat /var/log/nginx/access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。


4. 百度蜘蛛派性记录时间点分布

cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $4}'


5. 百度蜘蛛爬行页面按次数降序列表

cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r


文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。


附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

cat access.log | grep Mediapartners

Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!


Linux下nginx如何启用网站日志,查看蜘蛛爬虫


默认的路径是你安装时候指定的

如果用的LNMP之类的安装包

你可以在SHELL下

where is nginx

找到相应的路径之后

在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话,在配置文件里有路径的!


总结!我想学***了!


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
2月前
|
数据采集 JavaScript C#
C#图像爬虫实战:从Walmart网站下载图片
C#图像爬虫实战:从Walmart网站下载图片
|
1月前
|
Web App开发 前端开发 JavaScript
Web开发者必收藏的10个实用网站,你还没收藏吗?
将这些网站收藏起来,定期访问,使它们成为您日常工作的一部分,助您在快速发展的 Web 开发领域保持领先。
106 2
Web开发者必收藏的10个实用网站,你还没收藏吗?
|
23天前
|
人工智能 搜索推荐 PHP
PHP在Web开发中的璀璨星辰:构建动态网站的幕后英雄###
【10月更文挑战第25天】 本文将带您穿越至PHP的宇宙,揭示其作为Web开发常青树的奥秘。通过生动实例与深入解析,展现PHP如何以简便、高效、灵活的姿态,赋能开发者打造动态交互式网站,同时不忘探讨其在新时代技术浪潮中面临的挑战与机遇,激发对技术创新与应用的无限思考。 ###
32 1
WK
|
23天前
|
安全 Java 编译器
C++和Java哪个更适合开发web网站
在Web开发领域,C++和Java各具优势。C++以其高性能、低级控制和跨平台性著称,适用于需要高吞吐量和低延迟的场景,如实时交易系统和在线游戏服务器。Java则凭借其跨平台性、丰富的生态系统和强大的安全性,广泛应用于企业级Web开发,如企业管理系统和电子商务平台。选择时需根据项目需求和技术储备综合考虑。
WK
37 0
|
1月前
|
数据采集
爬虫案例—抓取找歌词网站的按歌词找歌名数据
爬虫案例—抓取找歌词网站的按歌词找歌名数据
|
2月前
|
数据采集 Java 数据挖掘
Java IO异常处理:在Web爬虫开发中的实践
Java IO异常处理:在Web爬虫开发中的实践
|
3月前
|
存储 前端开发 搜索推荐
Web前端网站(三)- 记事本
【8月更文挑战第8天】多种颜色搭配的动态粒子背景特效(粒子会随着鼠标的移动进行吸附,好看又好玩),左右摆动的文字特效,并且使用localStorage进行数据的持久化存储,使记事本的内容可以长期的保存在浏览器中,功能包括添加留言、显示留言、删除留言。每一行代码都有详细注释~~~大家可以尽情创作
66 5
Web前端网站(三)- 记事本
|
3月前
|
前端开发 搜索推荐 JavaScript
Web前端网站(四)- 音乐播放器
【8月更文挑战第9天】页面整体色调背景采用柔和渐变的方式呈现,与主页面的“毒药水式”色彩搭配形成了强烈的对比;周边花瓣缓缓飘落到水面之上形成涟漪。整体给人一种温馨、浪漫的感觉,还可以通过中间的3个按钮来控制音乐的切换和播放效果。每一行代码都有详细注释~~~大家可以尽情创作
42 2
Web前端网站(四)- 音乐播放器
|
3月前
|
数据采集 数据可视化 关系型数据库
【优秀python web设计】基于Python flask的猫眼电影可视化系统,可视化用echart,前端Layui,数据库用MySQL,包括爬虫
本文介绍了一个基于Python Flask框架、MySQL数据库和Layui前端框架的猫眼电影数据采集分析与可视化系统,该系统通过爬虫技术采集电影数据,利用数据分析库进行处理,并使用Echart进行数据的可视化展示,以提供全面、准确的电影市场分析结果。
134 4
|
3月前
|
数据采集 存储 数据挖掘
构建高效Web爬虫:Python与BeautifulSoup实战指南
【8月更文挑战第31天】本文将引导读者步入Web爬虫的世界,通过Python编程语言和BeautifulSoup库的强强联手,解锁数据抓取的艺术。文章不仅提供代码示例,还将深入探讨如何设计高效、可维护且符合伦理的爬虫程序。
下一篇
无影云桌面