开发者社区> lzhdim> 正文

轻量级爬虫+全文检索解决方案项目——NukeLite(2008-11-14 更新r24版 引入新线程机制)

简介: 轻量级爬虫+全文检索解决方案项目——NukeLite svn: http://nukelite.googlecode.com/svn/trunk/ 项目地址:http://code.google.com/p/nukelite/ 开源协议:Apache License 2.
+关注继续查看

轻量级爬虫+全文检索解决方案项目——NukeLite

svn: http://nukelite.googlecode.com/svn/trunk/

项目地址:http://code.google.com/p/nukelite/

开源协议:Apache License 2.0

 

=================================================================

2008-11-14更新:

版本更新为 0.1.0.0 r24

 更新项:
1、调整数据库插件调用结构;
2、提升引擎对编码识别的效果;
3、舍弃了ThreadPool的操作方式,引入了完成端口来控制线程,主要解决了同时线程并发太多导致的超时现象比较严重的问题,当然也使抓取速度慢了一些。


下次改进应该会对抓取与文本处理进行分离。

提供当前版本编译预览文件下载:(格式RAR)
NukeLite v0.1.0.0 r24 Preview2.rar

=================================================================


2008-11-03更新:

版本更新为 0.1.0.0 r18

更新项:

1、修正了MySQL操作参数名规范
     以前使用的老符合
'@',现在换成'?',连接字符串可以变成“Database=Searcher;Data Source=localhost;User Id=root;Password=123;charset=utf8”,不需要对旧操作符支持。
2、修正了Web管理任务无法设置层次的问题;
3、修正MySQL数据库结构中,UrlHash字段的类型为有符号int;
4、解决了多线程抓取任务不太稳定的问题,现在已经很稳定;
5、新增一个Windows系统服务项目,可以把程序配置为Windows系统服务,安装文件放在“ServiceRelease”目录。

总的来说,现在的爬虫可以称得上比较稳定了,至于是否高效,不太好说。在我本本上,54M无线网卡,1M带宽,双核1.6 CPU,3G内存,基本上每秒1.5条记录。
=================================================================

2008-10-31更新:

版本更新为 0.1.0.0 r16

更新项:

1、网站项目替换为应用程序项目;
2、改变数据库使用架构;
3、增加对MySQL数据库的支持。

注意:数据库操作采用的是MySQL Connector/Net ,操作编码要注意正确选择。系统默认给出的是utf-8。
现在对MS SQLServer 以及MySQL的访问是采用的工厂,请手动复制DLL到测试类应用。
本版本在 SQL Server 2005,MySQL 5下测试通过,不保证其它版本能稳定运行。

 

=================================================================

2008-10-30更新:

版本更新为 0.1.0.0 r10

更新项:

1、增加了Web管理任务项目;
2、改变了解决方案路径;
3、去掉了一些不必要的引用;
4、修改了部分代码编译级的写法,更加适合标准C#编译,除了Web项目,其它两项在Ubuntu 8.04 MonoDevelop 1.0下编译通过。

另外,和一位网友交谈,受到启发,将会在页面捕获处增加插件结构支持,以适应需要对网页结构做更细致处理的需求。比如,通过写某个dll给程序调用,则可以分析出定向网站网页中的日期、作者、分类等信息。开发时间未定,有兴趣的朋友可以和我交流。

=================================================================

2008-10-29更新:

版本更新为 0.1.0.0 r7

更新项:
1、不再使用ADO.Net Entity Framework
2、使用框架改为.Net Framework 2.0
3、修正了数据库一个字段的名称以及部分字段的长度
4、更新了部分注释


提供预览编译版本,下载地址:http://code.google.com/p/nukelite/downloads/list

==================================================================

项目简介:

嘿嘿,我自己写的一个轻量级的解决方案,希望以这个项目为开始,发展成一个健全,强大的全文搜索解决方案。

运行平台:.Net Framework 2.0 / Mono
数据库: MS SQLServer 2005 / MySQL 5
HTTP服务: IIS / Apache

项目采用C#开发,预期分爬虫,索引和搜索三部分。目前正在开发爬虫部分。


上图为该爬虫爬行数据时输出信息。

目前爬虫的工作流程为:

1、设置起始地址、抓取规则、访问深度等;
2、爬虫提取数据分配任务;
3、多线程运行捕获任务;
4、分析捕获文本,设置为规则文本,同时存入数据库和在磁盘生成快照。

生成索引和搜索部分暂未完成。

 

爬虫实现了:
1、多线程抓取;
2、编码识别(对部分站点测试,准确率98%以上);
3、网页快照。

下一步实现:
1、多进程分布式抓取;
2、坏链处理;
3、失败处理等。

目前爬虫的工作方式:

tags: C#爬虫,C#蜘蛛,C#搜索引擎,.Net爬虫,.Net蜘蛛,.Net搜索引擎。

2008-10-28  by yurow.

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
微软轻量级系统监控工具sysmon原理与实现完全分析(上篇)
作者:浪子_三少 Sysmon是微软的一款轻量级的系统监控工具,最开始是由Sysinternals开发的,后来Sysinternals被微软收购,现在属于Sysinternals系列工具。它通过系统服务和驱动程序实现记录进程创建、文件访问以及网络信息的记录,并把相关的信息写入并展示在windows的日志事件里。经常有安全人员使用这款工具去记录并分析系统进程的活动来识别恶意或者异常活动。而本文讨论
1671 0
单颗GPU计算能力太多、太贵?阿里云发布云上首个轻量级GPU实例
当地时间3月18日,在硅谷举办的2019年NVIDIA GPU技术大会(GTC)上,阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。
2782 0
[20170117]添加检索引擎.txt
[20170117]添加检索引擎.txt --经常查询oracle资料,要添加一些检索引擎,今天试着增加一下检索引擎. --我经常使用的浏览器是firefox. 打开浏览器=>点击检索栏前面放大镜,点击"更改搜索设置",打开配置界面:也可以直接输入: about:preferences#search 添加其他搜索引擎.
585 0
Netflix开源面向稀疏数据优化的轻量级神经网络库Vectorflow
在Netflix公司,我们的机器学习科学家在多个不同的领域处理着各种各样的问题:从根据你的爱好来定制电视和推荐电影,到优化编码算法。我们有一小部分问题涉及到处理极其稀疏的数据;手头问题的总维度数很容易就能达到数千万个特征,即使每次要看的可能只是少数的非零项。
4381 0
Microsoft Visual Studio与Firefly 一直提示加载项目,更新源码状态问题
        笔记本一开始安装的是vs2010,由于近期开发要用vs2008与vs2005于是今天又把2008、2005安装上了,但在打开项目的时候,先是提示加载项目文件,然后一直提示更新源码状态,很慢很慢的,之前只有vs2010的时候,打开是很快的,现在不管是用2008、2005、2010就没有一个快的,源码管理用的是firefly,有人知道为什么会出现这种情况吗?        
1027 0
+关注
lzhdim
人在20岁以意志力著称,在30岁以智慧取胜,在40岁则靠的是理智的判断。 一个人只有时刻保持幸福快乐的感觉,才会使自己更加热爱生命,热爱生活。只有快乐,愉快的心情,才是创造力和人生动力的源泉;只有不断自己创造快乐,与自己快乐相处的人,才能远离痛苦与烦恼,才能拥有快乐的人生。
522
文章
4
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载