开发者社区> 黄兵的博客> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

什么是网络爬虫?

简介: 网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。
+关注继续查看

什么是网络爬虫

网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。

有些机器人是合法的——例如,Googlebot 是 Google 用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例如,用于自动扫描网站以查找软件漏洞并执行简单攻击模式的机器人。

什么是僵尸网络

有许多类型的恶意软件会感染最终用户设备,目的是将它们纳入僵尸网络。任何被感染的设备都会开始与控制端通信,并且可以在攻击者的中央控制下执行自动化活动。

许多威胁行为者积极参与构建大型僵尸网络,其中最大的僵尸网络跨越数百万台计算机。通常,僵尸网络可以自行发展,例如使用受感染的设备发送垃圾邮件,从而感染更多机器。

僵尸网络所有者将它们用于大规模恶意活动,通常是分布式拒绝服务 (DDoS) 攻击。僵尸网络也可用于任何其他恶意机器人活动,例如垃圾邮件机器人或社交机器人。

网络爬虫类型

Internet 上活跃的爬虫程序有很多种,包括合法的和恶意的。下面是几个常见的例子。

搜索引擎爬虫

搜索引擎爬虫,也称为网络蜘蛛、索引擎蜘蛛或爬虫,通过跟踪超链接浏览网络,目的是检索和索引网络内容。蜘蛛下载 HTML 和其他资源,例如 CSS、JavaScript 和图像,并使用它们来处理站点内容。

如果您有大量网页,您可以将 robots.txt 文件放在您的网络服务器的根目录中,并向机器人提供说明,指定它们可以抓取您网站的哪些部分以及频率。

scrape 机器人

Scraper 是从网站读取数据的机器人,目的是离线保存数据并使其能够重复使用。这可能采取抓取网页的全部内容或抓取网页部分内容以获取特定数据的格式,例如电子商务网站上产品的名称和价格,博客上的文章。

网页抓取是一个灰色地带——在某些情况下,抓取是合法的,并且可能会得到网站所有者的许可。在其他情况下,scrape 开发者可能会违反网站使用条款,或者更糟糕的是——利用抓取来窃取敏感或受版权保护的内容。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
什么是算法?
当人们提到“算法”一词,往往就会把它们当成专属于“人工智能”的范畴,很多专业的计算机人士也是,提起算法就头疼,不知道如何学习算法,慢慢的对算法就会失去兴趣,算法不仅仅是计算机行业特有的,在我们的生活中也处处存在着算法,算法是专注于解决问题的过程和方法。
50 0
什么是网络爬虫,网络爬虫有什么用?
什么是网络爬虫,网络爬虫有什么用? 简单地说,就是把网页所展示数据通过非人工的手段获取下来。 现在是大数据时代,数据分析是解决各行各业相关问题重要的依据。数据分析结果的准确性有很大一部分取决于数据量是否足够大。
2725 0
x3d
什么是人格
一直懵懵懂懂对人格这个词比较感兴趣,还读过所谓“九型人格”的书籍,但对人格的定义却不甚了解。但最近看了豆瓣上关于多重人格的一篇文章:https://www.douban.com/note/582954643/ 后,人格这个词就一直在脑海里出现,并且深深的为自己的人格担心起来,数一数,好像也有一二三四五六七八中人格了啊。
723 0
什么是提醒?
什么是提醒? 使用提醒是通过邮件接收列表和库的改变或特殊的文档和列表项目的信息的很好的方法。 SharePoint有内置的提醒机制,它可以使用户注册不同种类的提醒。
513 0
什么是列表?
什么是列表? SharePoint列表是信息的容器,和简单的数据库或电子表格很类似。使用列表是在SharePoint网站中管理信息最普遍的方式。 在一个列表中,数据以行的形式存储,每行叫做一个列表项目。
507 0
15
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载