下载和安装
</header>
使用maven下载
当前最新版本1.1.0
-
gecco核心库
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco</artifactId> <version>x.x.x</version> </dependency>
-
spring插件
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco-spring</artifactId> <version>x.x.x</version> </dependency>
-
htmlunit插件
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco-htmlunit</artifactId> <version>x.x.x</version> </dependency>
-
redis插件
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco-redis</artifactId> <version>x.x.x</version> </dependency>
不使用maven下载
如果你没有使用maven构建项目,这里提供了gecco核心库和依赖的所有lib包的下载
如果需要使用spring、htmlunit、redis等相关插件,这里提供了核心库和所有插件以及相关依赖的lib包的all-in-one下载
日志输出
应用的classpath的根目录下放置log4j.properties
log4j.rootLogger=error,stdout
#stdout console appender
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[%d{yyyy.MM.dd HH:mm:ss}] %p %C:%M(%L) - %m%n
-
查看gecco相关的应用debug信息可以设置
log4j.logger.com.geccocrawler.gecco=debug
-
如果使用的是httpclient作为下载引擎,可以通过设置查看详细的http请求信息
log4j.logger.org.apache.http=debug
代理文件
如果需要使用代理ip,可将proxys文件放置在classpath的根目录下,格式为ip:port例如:
127.0.0.1:8008
127.0.0.1:80
gecco支持运行时计算每个代理的下载成功率,对于成功率低于50%的代理自动剔除。另外,运行时也可以通过Proxys.addProxy()动态添加代理服务器。
userAgent
系统默认已经放置了userAgent文件,如果需要自定义userAgent,可以在classpath的根目录下放置userAgents和mobileUserAgents。userAgents是pc端使用的,mobileUserAgents是手机端使用的。格式如下:
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;