用groovy采集网页数据

简介:
首先,用 http://groovyconsole.appspot.com/ 测试下面的代码,发现引用总是失败.

下载了GGTS: https://spring.io/tools/ggts

测试成功: 

NewImage

 

@Grapes( @Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2') )
import org.ccil.cowan.tagsoup.Parser;

class TestHtml {

public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )

def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"

new URL(url).withReader (ENCODING) { reader ->

def document = PARSER.parse(reader)
def data = document.'**'.find {it.@class == 'data-table1'}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1].a.@href.text().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}

data.each { it -> println it }
}
}
}


本文转自疯吻IT博客园博客,原文链接:http://www.cnblogs.com/fengwenit/p/5620484.html如需转载请自行联系原作者

目录
打赏
0
0
0
0
60
分享
相关文章
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
本文以百度为实战案例演示使用WebScraper插件抓取页面内容保存到文件中。以及WebScraper用法【2月更文挑战第1天】
743 2
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
网站流量日志分析 —数据采集—页面埋点 JavaScript 收集数据|学习笔记
快速学习网站流量日志分析—数据采集—页面埋点 JavaScript 收集数据
642 0
网站流量日志分析 —数据采集—页面埋点 JavaScript 收集数据|学习笔记
利用Selenium和XPath抓取JavaScript动态加载内容的实践案例
利用Selenium和XPath抓取JavaScript动态加载内容的实践案例
|
7月前
分别利用phantomjs和slimerjs实现网页的爬取和截图代码逻辑
文章介绍了如何使用PhantomJS和SlimerJS两种工具实现网页的爬取和截图,提供了具体的代码示例和执行命令。
53 0
使用原生JavaScript对网页或窗口进行截图
要使用原生 JavaScript 对整个网页或窗口进行截图,你可以使用 html2canvas 库。 html2canvas 是一个强大的 JavaScript 库,可以将网页的可见部分渲染为 <canvas> 元素,并且可以保存为图像。
686 0
如何采集javascript动态加载网页
从一个运行 javascript 的网站加载所有数据来加载内容,目前的问题是当运行启动代码时它无法加载 javascript 内容,因为用户应该向下滚动才能加载。如何编写启动代码来滚动整页呈现 javacript 并返回 html呢? 为了加载运行JavaScript来加载内容的网站上的所有数据,可以修改Splash代码以模拟滚动并确保整个页面呈现,从而能够检索所需的HTML内容
110 0
网站流量日志埋点收集 —埋点代码编写—src 属性直接引入|学习笔记
快速学习网站流量日志埋点收集—埋点代码编写—src 属性直接引入
180 0
网站流量日志埋点收集 —埋点代码编写—src 属性直接引入|学习笔记