基于java的分布式爬虫

简介:

分类

分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。

根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:

1、基于局域网分布式网络爬虫:这种分布式爬行器的所有爬虫在同一个局域网里运行,通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高,爬虫之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定的,爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式网络爬虫:当并行爬行器的爬虫分别运行在不同地理位置(或网络位置),我们称这种并行爬行器为分布式爬行器。例如,分布式爬行器的爬虫可能位于中国,日本,和美国,分别负责下载这三地的网页;或者位于CHINANET,CERNET,CEINET,分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以子在一定程度上分散网络流量,减小网络出口的负载。如果爬虫分布在不同的地理位置(或网络位置),需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限的,通常需要通过互联网进行通信。

大型分布式网络爬虫体系结构图

image

分布式网络爬虫是一项十分复杂系统。需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层面的资源也是必须的。

架构

下面是项目的总体架构,第一个版本基于此方案来做。

上面的web层包括:控制台、基本权限、监控展示等,还可以根据需要再一步进行扩展。

核心层由控制者统一调度,将任务发给工人队列中的工人进行爬取操作。各个结点动态的向监控模块发送模块状态等信息,统一由展示层展示。

0.1版本架构图

项目目标

众推,开源版的今日头条!

基于hadoop思维的分布式网络爬虫。

目前已经将fourinone、jeesite、webmagic整合进来,并且进一步进行改进。想最终做成一个基于设计器的动态可配置的分布式爬虫系统,这个是第一阶段的目标。

项目目前情况

目前项目进展情况:

1、sourceer,可以接入多种数据源,接口已经定义(加入builder封装,可以使用简单爬虫)。

2、web架构工程(web工程上传并测试成功,权限、基础框架改造,导入等已经录成视频,删除activiti,删除cms部分)。

3、分布式框架研究(分布式项目分包,添加部分注释,测试单机单工人爬取)。

4、插件化整合。

5、文章等各种去重方式及算法(目前已实现bloomfilter,指纹算法去重,已经实现simhash,分词算法(ansj))。

6、分类器测试(bayes,文本分类单机测试成功)。

项目地址:

(分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler

(去重过滤器)https://git.oschina.net/zongtui/zongtui-filter

(文本分类器)https://git.oschina.net/zongtui/zongtui-classifier

(文档目录)https://git.oschina.net/zongtui/zongtui-doc

项目界面:

启动jetty,目前皮肤暂时还未换。

image

总结

目前项目正在进一步完善当中,希望能得到你更多的意见!

目录
相关文章
|
17天前
|
Java
Java基础却常被忽略:全面讲解this的实战技巧!
本次分享来自于一道Java基础的面试试题,对this的各种妙用进行了深度讲解,并分析了一些关于this的常见面试陷阱,主要包括以下几方面内容: 1.什么是this 2.this的场景化使用案例 3.关于this的误区 4.总结与练习
|
5月前
|
分布式计算 安全 Java
【Java 第一篇章】 认识一下Java
Java 是一种由 Sun Microsystems 开发、现属 Oracle 的编程语言,以其“一次编写,到处运行”的特性著称。作为一种纯面向对象的语言,Java 支持封装、继承和多态,并通过 Java 虚拟机实现了跨平台兼容性。它具备自动内存管理、丰富的类库、内置安全机制和多线程支持等优点。Java 广泛应用于 Web 和企业级应用开发、Android 应用、桌面应用、大数据处理乃至游戏开发等多个领域,是软件开发中的重要工具。
74 0
|
8月前
|
存储 自然语言处理 Java
Java基础之计算机基础知识引出Java
计算机基础知识概览:探讨计算机科学的约定性,指出其底层基于二进制逻辑运算,由晶体管开关控制。二进制与十进制间的转换是基础,计算机通过ASCII编码处理英文字符,但不包含汉字。早期计算机发展始于西方,从巴贝奇的差分机到图灵机,再到冯·诺伊曼结构。Unicode标准解决多语言字符编码,如UTF-8和UTF-16。编程语言分为低级(如汇编)和高级(如Java),以适应不同需求。
25 0
|
8月前
|
分布式计算 Java 大数据
【Java探索之旅】我与Java的初相识(一):Java的特性与优点及其发展史
【Java探索之旅】我与Java的初相识(一):Java的特性与优点及其发展史
60 0
java202303java学习笔记第四十天综合练习(多线程版的服务器)
java202303java学习笔记第四十天综合练习(多线程版的服务器)
87 0
|
安全 Java 编译器
常见Java基础面试题目分享二
自动拆箱与自动装箱 自动拆箱、自动装箱是JDK1.5开始提供的功能,自动拆箱可以把一个包装类型的对象赋值给对应的基本类型,自动装箱则相反。因为Java是一门面向对象的语言,而基本数据类型不具备对象的特点,所以提供了装箱与拆箱。比如某个方法需要传入object类的参数,但实际传入的是数字,如果没有自动拆、装箱就需要特殊处理
106 4
|
存储 运维 安全
常见Java基础面试题目分享一
Java是面向对象的,与C++相比去除了指针的概念,而且是单继承。 Java拥有平台独立性,可以做到一次编译到处运行,因为通过编译器将.java文件编译成class文件 Java具有垃圾回收机制、异常检测机制、数组越界检查等。数组越界检查可以避免访问到其它位置数据
96 0
|
IDE Java API
(JAVA高并发程序设计)第二章、java并行程序基础
(JAVA高并发程序设计)第二章、java并行程序基础
225 0
(JAVA高并发程序设计)第二章、java并行程序基础
|
存储 设计模式 Java
【新玩儿法】Java笔试题库11期
【新玩儿法】Java笔试题库11期
【新玩儿法】Java笔试题库11期
|
Java Shell API
大多数人不知道的Java知识 - Java内省机制
大多数人不知道的Java知识 - Java内省机制