爬虫基本原理

简介: 爬虫的基本原理

爬虫概述

爬虫就是获取页面来提取和保存信息的自动化程序。

获取网页

爬虫的工作首先是获取网页,这里就是获取网页的源代码。

提取信息

通过获取网页的源代码后来分析源代码并从中提取到我们想要使用的数据,首先最常用的方法是采用正则表达式,另外由于网页结构具有一定的规则,所以有些要根据CSS选择器或者XPath来提取其中的信息。

保存数据

提取信息后我们一般会将保存的数据保存到某处以便后续用来使用。可以简单保存为TXT文件或者JSON文件,也可以保存到数据库,如MYSQL,MongDB,还可以保存到远程服务器。

自动化程序

自动化程序的大概意思就是爬虫来代替人类来完成上面的操作,我们可以手动来提取网页中信息,但是当量特别大时、肯定还是借助程序快。

爬取哪些数据

网页中存在这各种各样的信息,最常见的便是常规网页,这些网页代表着HTML代码,最常见的便是HTML源代码,另外有些网页返回的并不是HTML代码。而是JSON字符串这种格式的数据方便传输和解析,网页中还包括各种二进制数据,如图片视频,音频,利用爬虫,将这些二进制数据抓取下来,然后保存对应的文件。
但是当我们爬取JavaScript渲染的页面时,用urlib和requests抓取网页时得到的源代码和浏览器中实际看到的不一样。越来越多的网页都是由Ajax、前端模块化工具来构建的。对于这种情况分析源代码Ajax接口,也可以使用一些第三方库来模拟渲染。

相关文章
|
6月前
|
数据采集 存储 数据库
简单描述一下爬虫的工作原理。
```markdown 爬虫工作原理:发送HTTP请求至目标网站,接收响应并解析网页内容,提取所需信息,存储数据。此过程循环进行,处理限制与复杂情况,遵循法规。📚🤖 ```
49 8
|
6月前
|
数据采集 NoSQL Redis
Python爬虫-代理池原理和搭建
代理池架构,代理池的实现
150 0
|
28天前
|
数据采集 JavaScript 前端开发
JavaScript逆向爬虫——无限debugger的原理与绕过
JavaScript逆向爬虫——无限debugger的原理与绕过
|
29天前
|
数据采集 调度 Python
Python编程异步爬虫——协程的基本原理(一)
Python编程异步爬虫——协程的基本原理(一)
|
29天前
|
数据采集 Python
Python编程异步爬虫——协程的基本原理(二)
Python编程异步爬虫——协程的基本原理(二)
|
6月前
|
数据采集 存储 JSON
【专栏】网络爬虫与数据抓取的基础知识,包括爬虫的工作原理、关键技术和不同类型
【4月更文挑战第27天】本文介绍了网络爬虫与数据抓取的基础知识,包括爬虫的工作原理、关键技术和不同类型。通过实例展示了如何构建简单爬虫,强调实战中的环境搭建、目标分析及异常处理。同时,文章探讨了法律、伦理考量,如尊重版权、隐私保护和合法用途,并分享了应对反爬策略。最后,倡导遵守数据抓取道德规范,以负责任的态度使用这项技术,促进数据科学的健康发展。
770 2
|
5月前
|
数据采集 XML 缓存
心得经验总结:爬虫(爬虫原理与数据抓取)
心得经验总结:爬虫(爬虫原理与数据抓取)
44 0
|
5月前
|
数据采集 XML 缓存
心得经验总结:爬虫(爬虫原理与数据抓取)
心得经验总结:爬虫(爬虫原理与数据抓取)
60 0
|
6月前
|
数据采集 前端开发 JavaScript
Python爬虫之Ajax数据爬取基本原理#6
Ajax数据爬取原理【2月更文挑战第19天】
87 1
Python爬虫之Ajax数据爬取基本原理#6
|
6月前
|
数据采集 存储 前端开发
Python爬虫的基本原理#2
摘要:爬虫基本原理、会话和Cookie详解【2月更文挑战第8天】
60 1
Python爬虫的基本原理#2