1.什么是爬虫技术
爬虫技术(Web scraping)是一种通过自动化程序来访问网页并提取数据的技术。这些程序被称为爬虫(spider)或者网络爬虫(web crawler)。爬虫技术通常用于从网页上抓取大量数据,这些数据可以用于各种用途,例如数据分析、搜索引擎索引、价格比较、内容聚合等
2.了解jsoup
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。如果你想要简单爬虫实现那它是再好不过了.
3.Java代码实操
3.1 工程导入
在IDEA中打开JsoupDemo项目
项目在百度网盘中
链接: https://pan.baidu.com/s/1u176Wf0BJrL6HeD39saG3Q?pwd=y9eq 提取码: y9eq
3.2 运行演示
打开项目,在点击JsoupDemo文件,按照下图进行操作
运行项目,控制台会打印爬取到的信息
3.3 原理分析
当我们尝试访问某一个网站时,打开控制台点击元素时(根据浏览器不同打开的发送)可以看到有大量的原始代码返回,这部分我们叫做前端代码
0
此时,假设我们需要爬取某部分信息,只需要右键检查内容,此时下面的前端代码Elements
会自动定位
所以这里,一个jsoup技术就可以帮我们实现,当我们想要所有的动态列表,就可以通过这个映射关系实现
注意事项
- 这里的获取,因为前端的cur标签是
class="container"
,所以我们右侧Java代码是:getElementsByClass("container");
,这两部分需保持一致
- 并不是所有的页面都允许爬取,比如我们爬取京东、淘宝,他会自动跳转到登录页,就不允许爬虫程序的爬取
尝试自己找一个网站,爬取自己感兴趣的内容,以下可做参考
- 大学官网
- 小说网站
- 天气网站