基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 ---------------------------------------------------------------------------------------------------------- 提示:当前版本项目停止更新,最新Apache Nutch 2.X版本实现请访问: http://git.oschina.net/xautlx/nutch-ajax ------------------------------------------------------------------------------------------------
之前提供了一个版本,是直接把plugin形式的源码放到代码库,后来发现有不少人反馈说自己集成到apache nutch中编译或运行,遇到这那的问题。因此这次干脆基于Apache Nutch 1.8源码工程,把所有插件源码/依赖/运行参数等预置好,使大家能更简洁全面的使用这个插件。
虽然还没看实现,但感觉很不错,谢谢分享######代码导进来全是错的######@S2JH 能给个好用的s2jh吗######Apache Nutch工程代码采用Ivy进行依赖管理,再先参考官方文档熟悉官方源码工程编译运行过程后,再来获取本项目源码就理解其用法了。######大神 我用这个插件 抓去工商银行ajax的网站(http://www.icbc.com.cn/ICBCDynamicSite2/money/moneytabs.htm),职能抓去现金管理类的两个产品,其他的需要鼠标经过触发的mouseenter事件的产品,还是抓去不了啊。这和致用htmlUnit的效果一样呢。大神,能帮我看看吗?万分感谢啊。。方便的话,希望能加下您的qq.(me:737546268@qq.com).
######回复 @S2JH : 大神,这个能抓取ajax请求的数据吗?######提示:当前版本项目停止更新,最新Apache Nutch 2.X版本实现请访问: http://git.oschina.net/xautlx/nutch-ajax######
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。