robots.txt学习笔记----以亚马逊&Github为例

简介: 目录:robots.txt简介亚马逊--robots.txt分析Github--robots.txt分析总结robots.txt简介介绍robots.txt(统一小写)文件位于网站的根目录下,是ASCII编码的文本文件,用于表明不希望搜索引擎抓取工具访问的内容。
目录:
  • robots.txt简介
  • 亚马逊--robots.txt分析
  • Github--robots.txt分析
  • 总结

robots.txt简介


介绍

robots.txt(统一小写)文件位于网站的根目录下,是ASCII编码的文本文件,用于表明不希望搜索引擎抓取工具访问的内容。

robots.txt基本语法

  • User-agent(用户代理)是指网页抓取工具软件
  • Disallow 是针对用户代理的命令,指示不要访问某个特定网址
  • Allow 是允许访问的特定网址,多用于给已禁止访问的父级目录的子目录设置允许访问
  • 用正则表达式进行路由匹配
    Web Robots Database中列出了大多数用户代理
  • Sitemap:指示站点地图位置

robots.txt的限制范围

  • robots.txt命令仅仅只是指令,不能强制屏蔽抓取
  • robots.txt指令不能阻止其他网站引用网址

原则

1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

作用

爬虫通过爬取网站并索引网页,并随后通过关键字搜索为网站带来流量。然而,我们只希望爬虫抓取的是最有价值的网页,不希望它们访问不重要的信息或私密的、不适于公开的信息和数据。
robots.txt可用于搜索引擎优化。

img_852ed9727902141a62ceb17b549d5ff5.png
爬虫的作用

来源: 完全指南:如何写好WordPress博客的robots.txt文件

亚马逊--robots.txt分析


User-agent:

美国亚马逊:www.amazon.com/robots.txt

  • *屏蔽全部爬虫的指令
  • Googlebot
    • Googlebot 是Google 的网页抓取漫游器(有时称为“蜘蛛程序”)。 抓取是指Googlebot 找出要添加到Google 索引中的新网页和更新过的网页的过程。 我们使用大量计算机来提取(或“抓取”)网络上的大量网页。
    • 与*屏蔽内容相似
  • EtaoSpider
    • 阿里巴巴旗下一淘网比价网垂直抓取系统
    • 指令屏蔽全部爬虫

中国亚马逊:www.amazon.cn/robots.txt
User-agent:*
没有屏蔽谷歌和一淘爬虫的指令

disallow内容分析(仅摘录了我能看懂的部分):
登录页面
加入购物车
心愿单
评论常见问题
投票
好友
twitter
历史记录
图片
音视频文件
死链接
robots元数据
img_10405e9b2ed9dc4968aa349a57b0e192.png
amazon-meta-robots.PNG

NOINDEX指令:定义了此网页不被搜索引擎索引进数据库,但是搜索引擎可以通过此网页的链接继续索引其它网页
NOFOLLOW指令:不索引这个页面,以及这个页面的链出页面。只适用于此页面上的链接

小结

亚马逊的屏蔽命令主要包括四个部分:客户个人隐私信息、商业数据、耗费大量带宽的数据和死链接。
商家有义务保护用户的个人信息和隐私不被侵犯。商业数据又包括用户的浏览信息、购买信息、反馈信息等可以带来商业价值的大数据。耗费大量带宽的数据如图片、音视频文件等,屏蔽后可以节省服务器带宽。
其中,美国亚马逊还屏蔽了谷歌爬虫和一淘网爬虫的抓取。一淘比价网的抓取可能会影响到亚马逊的商品销量。
Allow部分的指令主要是为了方便爬虫抓取,以便为亚马逊带来客户和流量。

Github--robots.txt分析

www.github.com/robots.txt

User-agent:
CCBot
coccoc---越南的免费网页浏览器
Daumoa---
dotbot
duckduckbot
EtaoSpider
Googlebot---谷歌爬虫,搜索网站
HTTrack
ia_archiver
IntuitGSACrawler
Mail.RU_Bot---邮件爬虫
msnbot---msn爬虫,社交网站
Bingbot---必应爬虫,搜索网站
naverbot
red-app-gsa-p-one
rogerbot
SandDollar
seznambot
Slurp
Swiftbot---Swift爬虫
Telefonica
teoma
Twitterbot---推特爬虫,社交网站
Yandex
disallow内容分析(仅摘录了我能看懂的部分):
/*/*/tree/master           //代码的master主分支
/*/stars                   //获得的star
/*/download                 //链接中需要下载的内容
/*/*/commits/*/*           //评论
/*/*/search                  //内嵌搜索
/*/cache/                    //缓存
/.git/                           //git仓库  
/login                         //用户登录
小结

Github屏蔽的用户代理有很多,主要目的还是以保护用户的个人隐私和知识产权不被侵犯。

总结

通过对以上两个网站分析可以看出,robots.txt协议的主要目的是为了进行搜索引擎优化。一方面允许爬虫为网页带来流量和客户,另一方面努力维护用户和商家的隐私和利益不受侵犯。
尽管robots.txt并不能完全防止自己的网页内容被爬取,但是,为自己的网站设置robots.txt依然是很有必要的。

参考链接:
Baidu baike: http://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fromtitle=robots.txt&fromid=9518761
Google support:https://support.google.com/webmasters/answer/6062596?hl=zh-Hans&ref_topic=6061961
seobook: http://tools.seobook.com/robots-txt/
完全指南:如何写好WordPress博客的robots.txt文件

目录
相关文章
|
jenkins 持续交付
jenkins学习笔记之九:jenkins认证集成github
jenkins学习笔记之九:jenkins认证集成github
GitHub爆赞!终于有大佬把《Python学习手册》学习笔记分享出来了
这份笔记的目标是为了给出一份比较精炼,但是又要浅显易懂的Python教程。《Python学习手册》中文第四版虽然比较简单,但是措辞比较罗嗦,而且一个语法点往往散落在多个章节,不方便读者总结。 我在做笔记时,将一个知识点的内容都统筹在一个章节里面,因此提炼性大大提高。而且还有《Python学习手册》中文第四版的翻译在某些章节(可能难度较大?)措辞可能前后矛盾。当知识点提炼之后就能够很快的找到一些难以理解的概念的上下文,方便吃透这些难点。
|
1月前
|
JSON Kubernetes 安全
找到啦,我们已上车,Github 27000+ star,研发团队必备开源工具项目,真丝滑!!!
Trivy 是一款高效灵活的开源安全扫描工具,支持容器镜像、文件系统、Kubernetes 等多目标扫描,具备快速、易用、集成性强等特点,适用于 DevSecOps 全流程安全检测。
|
26天前
|
人工智能 编解码 JSON
不看后悔!GitHub 开源 MultiTalk .8k star 强大的人语音+图像绑定项目
MultiTalk 是 GitHub 上的开源项目,具备音频驱动、多人对话视频生成功能。支持多路音频与图像绑定,实现高同步唇动与角色互动,适用于教学、虚拟人及短视频创作,已获 8k 星标。
134 0
|
26天前
|
安全 数据可视化 项目管理
精品,Github 5000+ star,小型研发团队必备商业开源项目
DooTask 是一款开源在线项目任务管理工具,具备文档协作、流程图、任务分发、IM沟通等功能,支持私有部署与数据加密,已在 GitHub 获得 5000+ 星标,适合中小团队提升协作效率。
|
26天前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
128 0
|
7月前
|
开发工具 git C++
【够用就好002】外行第一次发布github项目仓库
#deepseek#自学 记录外行学习代码的历程 今天是上传自己的工具代码到github仓库,一直以来是伸手党克隆别人的项目,今天在deepseek的辅导下上传自己的内容。
|
1月前
|
数据采集 人工智能 搜索推荐
完蛋啦,爆火Github项目,用微信聊天记录打造专属AI数字分身,我都不敢相信!!
WeClone 是一个基于微信或 Telegram 聊天记录微调大语言模型的开源项目,可打造专属 AI 数字分身。支持文本、图片等多模态数据,具备语言风格迁移和语音克隆功能,实现“说话像你”的AI角色。项目提供完整训练流程,支持本地部署,保护隐私,适用于个人数字分身、纪念机器人、客服助手等场景。
202 0
|
1月前
|
存储 人工智能 自然语言处理
让你拥有一个AI大脑,这个32.1k Github项目是你不错的选择,支持PDF、Markdown、代码、视频成为你的知识内容
Quivr 是开源全栈 RAG 平台,助你打造“第二大脑”,支持多文档类型与多种 LLM,实现智能搜索与聊天。具备语义检索、本地部署、隐私保护等功能,适用于个人知识管理与企业知识库,界面简洁易用,是高效智能问答的理想选择。
|
1月前
|
人工智能 数据可视化 开发者
惊艳!GitHub 开发者一键接入!4.2k star 项目 Champ,用一张照片秒变动画
“Champ” 致力于从一张静态人物图生成流畅连续的人体动画,支撑精准姿态控制与形状一致性,其核心思路是将 3D 参数化人体模型(SMPL)引入扩散模型:

热门文章

最新文章