HttpUnit 使用示例 抓取网页内容

简介: 最近在想如何从网页中抓取需要的数据出来, 直接用java提供的API太麻烦了, 在一些成熟的自动化测试web程序的类库中有可能需要的功能, 如HttpUnit, Watij, Selenium ; 现在试用了一下HttpUnit, 不是很方便, 只能...
最近在想如何从网页中抓取需要的数据出来, 直接用java提供的API太麻烦了, 在一些成熟的自动化测试web程序的类库中有可能需要的功能, 如HttpUnit, Watij, Selenium ; 现在试用了一下HttpUnit, 不是很方便, 只能找到有id的table元素, 没有id的还要自己处理response的流

	public static void main(String[] args) {
		WebClient webClient = new WebClient();

		HtmlPage page = null;
		try {
			page = (HtmlPage) webClient.getPage("http://biz.cn.yahoo.com/stock.html");
		} catch (FailingHttpStatusCodeException e) {

			//e.printStackTrace();
		} catch (MalformedURLException e) {

			//e.printStackTrace();
		} catch (IOException e) {

			//e.printStackTrace();
		}
		WebResponse wr = page.getWebResponse();
		HtmlDivision he = page.getHtmlElementById("stat1");
		if (he.hasChildNodes()){
			Iterator i = he.getChildElements().iterator();
			while(i.hasNext()){
				System.out.println(i.next());
			}
		}
		System.out.println(he.getAttribute("id"));
		//System.out.println(he.asXml());
		Iterator<HtmlElement> i = page.getAllHtmlChildElements().iterator();
		if(i.hasNext()){
			HtmlElement h = i.next();
			System.out.println(h.getNodeName());
		}
目录
相关文章
|
3月前
|
数据采集 Web App开发 JSON
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
本文以百度为实战案例演示使用WebScraper插件抓取页面内容保存到文件中。以及WebScraper用法【2月更文挑战第1天】
140 2
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
|
8月前
|
Python
Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。
Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。
156 0
|
14天前
在线拼接图片工具HTML源码
在线将多张图片拼接成一张图片,多图合一并导出下载。 无需本地安装软件。 下载时,使用日期时间作为文件名, 规避图片文件名相同造成的覆盖问题;也能省去一部覆盖确认操作 多语言支持
14 0
在线拼接图片工具HTML源码
|
20天前
|
Python
如何使用正则表达式提取网页中的特定信息
如何使用正则表达式提取网页中的特定信息
|
26天前
|
开发者 索引 Python
实践:如何使用python在网页的表格里抓取信息
实践:如何使用python在网页的表格里抓取信息
|
5月前
|
XML JavaScript 测试技术
学会XPath,轻松抓取网页数据
# 一、定义 XPath(XML Path Language)是一种用于在 XML 文档中定位和选择节点的语言。XPath的选择功能非常强大,可以通过简单的路径选择语法,选取文档中的任意节点或节点集。学会XPath,可以轻松抓取网页数据,提高数据获取效率。 ## 二、XPath基础语法 节点(Nodes): XML 文档的基本构建块,可以是元素、属性、文本等。 路径表达式: 用于定位 XML 文档中的节点。路径表达式由一系列步骤组成,每个步骤用斜杠 / 分隔。 XPath的节点是指在XML或HTML文档中被选择的元素或属性。XPath中有7种类型的节点,包括元素节点、属性节点、文本节点、命
73 1
学会XPath,轻松抓取网页数据
|
9月前
|
XML 数据采集 Web App开发
XPath数据提取与贴吧爬虫应用示例
XPath(XML Path Language)是一种用于在XML文档中定位和选择节点的语言。它提供了一种简洁的方式来遍历和提取XML文档中的数据。
78 1
|
12月前
|
Web App开发 开发者
GNE v0.04版更新,支持提取正文图片与源代码
GNE v0.04版更新,支持提取正文图片与源代码
112 0
|
Python
Python:使用readability-lxml 提取网页标题和主体内容
Python:使用readability-lxml 提取网页标题和主体内容
74 0
|
数据采集 Python
Python爬虫:url中带字典列表参数的编码转换
Python爬虫:url中带字典列表参数的编码转换
235 0