Web网站如何查看搜索引擎蜘蛛爬虫的行为

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 简介本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助。需要的朋友通过本篇文章学习下吧摘要做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。

简介


本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助。需要的朋友通过本篇文章学习下吧


摘要

做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。


下面我们针对nginx服务器进行分析,日志文件所在目录  /usr/local/nginx/logs/access.log 


access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。


Linux shell命令


1. 百度蜘蛛爬行的次数

cat /var/log/nginx/access.log | grep Baiduspider | wc

最左面的数值显示的就是爬行次数。


bf98954625c2b3eab7b0751237725e19.png-wh_


2. 百度蜘蛛的详细记录(Ctrl C可以终止)

cat /var/www/log/nginx/access.log | grep Baiduspider


也可以用下面的命令:

cat /var/log/nginx/access.log | grep Baiduspider | tail -n 10
cat /var/log/nginx/access.log | grep Baiduspider | head -n 10

只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。


3. 百度蜘蛛抓取首页的详细记录

cat /var/log/nginx/access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。


4. 百度蜘蛛派性记录时间点分布

cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $4}'


5. 百度蜘蛛爬行页面按次数降序列表

cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r


文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。


附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

cat access.log | grep Mediapartners

Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!


Linux下nginx如何启用网站日志,查看蜘蛛爬虫


默认的路径是你安装时候指定的

如果用的LNMP之类的安装包

你可以在SHELL下

where is nginx

找到相应的路径之后

在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话,在配置文件里有路径的!


总结!我想学***了!


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
15天前
|
数据采集 JavaScript C#
C#图像爬虫实战:从Walmart网站下载图片
C#图像爬虫实战:从Walmart网站下载图片
|
2月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
|
29天前
|
数据采集 Java 数据挖掘
Java IO异常处理:在Web爬虫开发中的实践
Java IO异常处理:在Web爬虫开发中的实践
|
2月前
|
存储 前端开发 搜索推荐
Web前端网站(三)- 记事本
【8月更文挑战第8天】多种颜色搭配的动态粒子背景特效(粒子会随着鼠标的移动进行吸附,好看又好玩),左右摆动的文字特效,并且使用localStorage进行数据的持久化存储,使记事本的内容可以长期的保存在浏览器中,功能包括添加留言、显示留言、删除留言。每一行代码都有详细注释~~~大家可以尽情创作
52 5
Web前端网站(三)- 记事本
|
2月前
|
前端开发 搜索推荐 JavaScript
Web前端网站(四)- 音乐播放器
【8月更文挑战第9天】页面整体色调背景采用柔和渐变的方式呈现,与主页面的“毒药水式”色彩搭配形成了强烈的对比;周边花瓣缓缓飘落到水面之上形成涟漪。整体给人一种温馨、浪漫的感觉,还可以通过中间的3个按钮来控制音乐的切换和播放效果。每一行代码都有详细注释~~~大家可以尽情创作
25 2
Web前端网站(四)- 音乐播放器
|
2月前
|
数据采集 数据可视化 关系型数据库
【优秀python web设计】基于Python flask的猫眼电影可视化系统,可视化用echart,前端Layui,数据库用MySQL,包括爬虫
本文介绍了一个基于Python Flask框架、MySQL数据库和Layui前端框架的猫眼电影数据采集分析与可视化系统,该系统通过爬虫技术采集电影数据,利用数据分析库进行处理,并使用Echart进行数据的可视化展示,以提供全面、准确的电影市场分析结果。
|
2月前
|
数据采集 存储 数据挖掘
构建高效Web爬虫:Python与BeautifulSoup实战指南
【8月更文挑战第31天】本文将引导读者步入Web爬虫的世界,通过Python编程语言和BeautifulSoup库的强强联手,解锁数据抓取的艺术。文章不仅提供代码示例,还将深入探讨如何设计高效、可维护且符合伦理的爬虫程序。
|
2月前
|
数据采集 存储 算法
深入浅出:用Python实现简单的Web爬虫
【8月更文挑战第29天】本文将引导你走进Web爬虫的世界,从基础原理到实战编码,我们将一步步构建一个简易的Python爬虫。不涉及复杂的算法和框架,只使用Python标准库中的模块。无论你是编程新手还是想扩展技能的开发者,这篇文章都将是你的理想选择。让我们一起探索数据获取的奥秘,并理解“你必须成为你希望在世界上看到的改变”这一哲理如何体现在技术实践中。
|
2月前
|
前端开发 安全 JavaScript
PHP与现代Web开发:探索PHP在构建动态网站中的角色和优势
【8月更文挑战第29天】 在数字时代的浪潮下,PHP以其独特的灵活性、易用性以及强大的社区支持,持续成为Web开发领域的重要力量。本文将深入探讨PHP如何适应现代Web开发的需求,通过具体示例揭示PHP的实际应用,并分析其在面对新兴技术挑战时的应对策略。我们将一探究竟,PHP如何在众多编程语言中脱颖而出,成为许多开发者和企业的首选。
|
2月前
|
数据采集 设计模式 数据处理
探索Python中的异步编程:使用asyncio和aiohttp构建高性能Web爬虫
【8月更文挑战第27天】在数字时代的浪潮中,数据抓取技术成为获取网络信息的重要手段。本文将引导读者步入Python异步编程的殿堂,详细探讨如何使用asyncio库和aiohttp模块来构建一个高性能的Web爬虫。文章不仅提供理论知识,还通过实际代码示例,展示如何实现非阻塞I/O操作,从而显著提高程序执行效率,让数据处理变得更加迅速和高效。
下一篇
无影云桌面