用groovy采集网页数据

简介:
首先,用 http://groovyconsole.appspot.com/ 测试下面的代码,发现引用总是失败.

下载了GGTS: https://spring.io/tools/ggts

测试成功: 

NewImage

 

@Grapes( @Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2') )
import org.ccil.cowan.tagsoup.Parser;

class TestHtml {

public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )

def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"

new URL(url).withReader (ENCODING) { reader ->

def document = PARSER.parse(reader)
def data = document.'**'.find {it.@class == 'data-table1'}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1].a.@href.text().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}

data.each { it -> println it }
}
}
}


本文转自疯吻IT博客园博客,原文链接:http://www.cnblogs.com/fengwenit/p/5620484.html如需转载请自行联系原作者

目录
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python编写Web爬虫实现数据采集与分析
在当今信息化时代,数据是企业发展和决策的重要依据。本文将介绍如何使用Python编写Web爬虫来实现对特定网站数据的自动采集,并结合数据分析技术,为读者展示如何利用爬虫技术获取有价值的信息并进行有效的数据处理和分析。
|
数据采集 监控 JavaScript
网站流量日志分析 —数据采集—页面埋点 JavaScript 收集数据|学习笔记
快速学习网站流量日志分析—数据采集—页面埋点 JavaScript 收集数据
453 0
网站流量日志分析 —数据采集—页面埋点 JavaScript 收集数据|学习笔记
|
9月前
|
数据采集 前端开发 数据可视化
漏刻有时数据可视化大屏数据采集工具(1):调用微信jsAPI扫描条形码或二维码ajax返回传参PHP源代码
漏刻有时数据可视化大屏数据采集工具(1):调用微信jsAPI扫描条形码或二维码ajax返回传参PHP源代码
73 0
|
JavaScript 前端开发 开发者
网站流量日志埋点收集 —埋点代码编写—src 属性直接引入|学习笔记
快速学习网站流量日志埋点收集—埋点代码编写—src 属性直接引入
122 0
网站流量日志埋点收集 —埋点代码编写—src 属性直接引入|学习笔记
|
SQL 监控 前端开发
网站流最日志分析--数据可视化--动态加载数据--数据格式排序问题剖析 | 学习笔记
快速学习网站流最日志分析--数据可视化--动态加载数据--数据格式排序问题剖析
101 0
网站流最日志分析--数据可视化--动态加载数据--数据格式排序问题剖析 | 学习笔记
|
SQL 监控 数据可视化
网站流量日志分析--数据可视化--动态加载数据 -- mybatis 逆向工程 | 学习笔记
快速学习网站流量日志分析--数据可视化--动态加载数据 -- mybatis 逆向工程
98 0
|
JSON 监控 数据可视化
网站流量日志分析--数据可视化--动态加载数据--代码实现 | 学习笔记
快速学习网站流量日志分析--数据可视化--动态加载数据--代码实现
89 0
网站流量日志分析--数据可视化--动态加载数据--代码实现 | 学习笔记
|
资源调度 JavaScript 容器
抓取的模板适配工具 Portia 的使用
访问 localhost:9001, 结果404 进到容器,发现 /app/portiaui/dist 文件夹下是空的。 下载 nodejs,yarn
169 0
抓取的模板适配工具 Portia 的使用