好长时间没写文章了,因为我最近一直在琢磨博客园如何才能成为一家上市公司,上市前我在博客园买点原始股,说不定就发了。
现在遇到错误总是先谷歌,谷歌背墙,在百度,百度不到在到博客园找 找看看
因为找找看的数据都是博客园的,数据量太少,我想找找看这个功能能不能升级都全网搜索,主要搜索和代码相关的网页,
这个搜索分英文版和中文版,中文错误 走中文版国内采集,英文错误 走国外采集的网页
当然,要上市,必须要有概念性的功能,我觉得
1指定关键词全网抓取和指定域名全网抓取 ,用户可以自己指定 要抓取的内容
(这个主要用于查找各种错误等等)
2 抓取算法的开源和透明是必须
3展示算法的开源和透明也是必须
大家补充下其他功能
============================================================
ps:idea 开源与我最近在折腾自己的小站(http://www.unknownerror.org/) ,主要练习ASP.NET MVC3,各种开源orm,基于Html Agility Pack和ScapySharp的数据采集,
外加lucenenet
发现一个一个网站的采集是在太郁闷了
后来找到 Nutch 这个东西,一看是做搜索引擎用,怎奈是java的,俺不会。。SO,这个想法交给dudu和看到园友们,最合适了
test