前端开发必懂之《Python连连问》
请问一下关于网站数据是否可爬的标准。 1. 除了 robots 协议,是否还有其他标准? 2. 那么当网站没有 robots 协议时,那么这个网站的数据是否可爬如何判定?毕竟 robots 协议只是约定俗成的,而不是一个规范。 3. 查看 robots 协议是查看当前域名还是顶级域名下的?比如:我想爬 a.b.com 的数据,首先看一下 robots 协议,那么我应该访问 a.b.com/robots.txt 还是 b.com/robots.txt ? (以上问题仅从如何正规爬取网站数据的角度而言)
赞0
踩0