nutch的抓取流程 以及 手动实践

简介:

inject -> generate -> fetch -> parse -> updatedb


第一个流程为把链接地址注入数据库

   其对应的java 类为 org.apache.nutch.crawl.Injector

实践

./bin/nutch inject data3/crawldb urls/


第二  生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过URL来定位的。 这一步骤主要是对上一步提交的URL集合进行分析,确定抓取任务的详细信息。

org.apache.nutch.crawl.Generator

./bin/nutch generate data3/crawldb/ data3/segments


第三 分析提交的URL集合之后,将页面内容抓取下来,存于segment目录下。

org.apache.nutch.fetcher.Fetcher

./bin/nutch fetch data3/segments/20130529160808/


第四 内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。

org.apache.nutch.parse.ParseSegment

./bin/nutch parse data3/segments/20130529160808/


第五 更新数据库

org.apache.nutch.crawl.CrawlDb

./bin/nutch updatedb data3/crawldb/ -dir data3/segments/


图片来自于 杨尙川的 视频截图

http://yangshangchuan.iteye.com/blog/1837935

其抓取过程的一些解释 参考于 

http://blog.csdn.net/cdl2008sky/article/details/7041411


本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1212737


相关文章
|
Linux 网络安全 Android开发
振南技术干货集:各大平台串口调试软件大赏(1)
振南技术干货集:各大平台串口调试软件大赏(1)
|
消息中间件 数据采集 SQL
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
基于实时计算 Flink 版的解决方案可帮助金融机构从容应对上述挑战,通过 Flink 构建实时数仓、实时反欺诈系统,助力金融机构快速构建实时风控体系。
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
|
消息中间件 监控 数据可视化
一口气完成ELK 日志平台的搭建,我感觉我又行了!
最近在玩 ELK 日志平台,它是 Elastic 公司推出的一整套日志收集、分析和展示的解决方案。
|
数据库 索引 容器
Flutter 132: 图解 PaginatedDataTable 分页表格
0 基础学习 Flutter,第一百三十二步:简单学习 PaginatedDataTable 分页表格!
1410 0
Flutter 132: 图解 PaginatedDataTable 分页表格
|
8月前
|
数据采集 人工智能 并行计算
惊了!Hugging Face 这款开源 TTS 能情感自由切换,Parler‑TTS 斩获 5.3K star,支持 34 角色+实时风格自定义,开源 TTS 新标杆
Hugging Face 开源轻量级 TTS 模型 Parler-TTS,支持情感自由切换、34 种说话人选择及实时风格自定义。提供 Mini 与 Large 两个版本,训练数据丰富,生成语音自然高质量,适配多种应用场景,助力高效语音开发。
585 1
|
网络协议
windows_server2012搭建iis并配置http重定向 iis转发
windows_server2012搭建iis并配置http重定向 iis转发
864 1
|
应用服务中间件 开发工具 nginx
Mac M1/M2/M3 芯片环境配置以及常用软件安装-前端
Mac M1/M2/M3 芯片环境配置以及常用软件安装-前端 最近换了台新 Mac,所有的配置和软件就重新安装下,顺便写个文章。
1785 1
|
IDE Android开发 iOS开发
深入解析Android与iOS的系统架构及开发环境差异
本文旨在探讨Android和iOS两大主流移动操作系统在系统架构、开发环境和用户体验方面的显著差异。通过对比分析,我们将揭示这两种系统在设计理念、技术实现以及市场策略上的不同路径,帮助开发者更好地理解其特点,从而做出更合适的开发决策。
1932 2
|
11月前
|
存储 API C#
C#之 Dictionary 详解
C#之 Dictionary 详解
260 3
|
存储 前端开发 UED
React 中的多选按钮(Checkbox)
本文详细介绍了在 React 中实现多选按钮(Checkbox)的方法,包括基础用法、常见问题及解决策略、进阶技巧如使用受控组件和第三方库,旨在帮助开发者更好地理解和应用多选按钮组件。
676 19

热门文章

最新文章