nutch简介

简介:

1、什么是 nutch

Nutch 是一个开源的、 Java 实现的搜索引擎。它提供了我们运行自己的搜 索引擎所需的全部工具。
2、研究 nutch 的原因
(1) 透明度: nutch 是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因 此 nutch 对学术搜索和政府类站点的搜索来说,是个好选择,因为一 个公平的排序结果是非常重要的。

(2) 对搜索引擎的理解:我们并没有 google 的源代码,因此学习搜索引擎 Nutch 是个不错的选择。了解一个大型分布式的搜索引擎如何工作是一 件让人很受益的事情。在写 Nutch 的过程中,从学院派和工业派借鉴了 很多知识:比如, Nutch 的核心部分目前已经被重新用 Map Reduce 实 现了。 Map Reduce 是一个分布式的处理模型,最先是从 Google 实验 室提出来的。并且 Nutch 也吸引了很多研究者,他们非常乐于尝试新 的搜索算法,因为对 Nutch 来说,这是非常容易实现扩展的。

(3) 扩展性:你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的:他可以被很好 的客户订制并集成到你的应用程序中,使用 Nutch 的插件机制, Nutch 可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成 Nutch 到你的站点,为你的用户提供搜索服务。
3、nutch 的目标
nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的 Web 搜索引擎. 为了完成这一宏伟的目标, nutch 必须能够做到:
• 每个月取几十亿网页
• 为这些网页维护一个索引
• 对索引文件进行每秒上千次的搜索
• 提供高质量的搜索结果
• 以最小的成本运作这将是一个巨大的挑战。
4、nutch VS lucene
简单的说:
Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。
Nutch 是一个应用程序,可以以 Lucene 为基础实现搜索引擎应用。 Lucene 为 Nutch 提供了文本索引和搜索的 API。

一个常见的问题是;我应该使用 Lucene 还是 Nutch?

最简单的回答是:如果你不需要抓取数据的话,应该使用 Lucene。常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页 面。在这种情况下,最好的方式是直接从数据库中取出数据并用 Lucene API 建立 索引。

目录
相关文章
|
8月前
|
机器学习/深度学习 分布式计算 算法
Mahout开源项目
Mahout是一个基于Apache Hadoop的开源机器学习库,旨在为Hadoop生态系统提供分布式机器学习功能。Mahout项目是由ASF(Apache Software Foundation)开发和维护的,它提供了一些可扩展的机器学习算法,包括聚类、分类、推荐和协同过滤等。【2月更文挑战第10天】
91 2
|
存储 SQL 分布式计算
Hadoop核心组成和生态系统简介
Hadoop核心组成和生态系统简介
Hadoop核心组成和生态系统简介
|
存储 SQL 分布式计算
Hadoop框架概论
集群:集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份的。其中重点的包括:Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、集群模式主要用于生产环境部署,会使用N台主机组成一个Hadoop集群,这种部署模式下,主节点和从节点会分开部署在不同的机器上。开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性差。
196 0
|
数据采集 Windows 数据挖掘
|
开发工具 Windows 数据格式
|
存储 分布式计算 安全
阅读笔记-Hadoop入门实践
ASF:阿里软件开发平台服务框架SIP:服务集成平台BEA:应用基础结构软件公司分布式计算的应用场景:日志分析、索引建立Threshold:是一款IOS平台的应用。随时随地帮您监控行动数据使用奘况 无论是使用无限数据方案或是有限数据方案, Threshold 可以帮助您随时掌握最新数据使用状态, 提供客制化警示设定, 还可以设立一个您专属的行动数据区域, 以确保您不会被额外收费。
1348 0
|
搜索推荐 Java 应用服务中间件