使用正则表达式,从网站上获取指定数据

简介:        最近做的一个项目中,其中有这样一个需求:用户要求我们实时在地图上显示某些指定景点的人数,但是却没有给我们数据的接口。不过可以从网页上获取到最新的数据,每小时更新一次。

       最近做的一个项目中,其中有这样一个需求:用户要求我们实时在地图上显示某些指定景点的人数,但是却没有给我们数据的接口。不过可以从网页上获取到最新的数据,每小时更新一次。所以经理安排我做一个实时从网页上抓取数据的功能。

       既然是网页,那么无用的数据肯定是非常多的,所以就需要用正则表达式来过滤出自己所需要的数据。

       不得不说,正则表达式比substring好用多了,而且效率也很不错。下面来分享一下我的这段代码吧:

	/**
	 * 从网站获取日期信息
	 * 
	 * @Title: getDate
	 * @Date : 2014-8-12 上午09:42:26
	 * @return
	 */
	private String getDate() {

		// 从网站抓取数据
		String table = catchData();
		String date = "";

		// 使用正则表达式,获取对应的数据
		Pattern places = Pattern.compile("(<p align=\"center\">)([^\\s]*)");
		Matcher matcher = places.matcher(table);
		while (matcher.find()) {
			System.out.println(matcher.group(2));
			date = matcher.group(2);
		}
		return date;
	}

	/**
	 * 从网站抓取数据(未经处理)
	 * 
	 * @Title: getData
	 * @Date : 2014-8-12 上午09:34:30
	 * @return
	 */
	@SuppressWarnings("unchecked")
	private String catchData() {
		String table = "";
		try {
			Map map = new HashMap();
			map.put("a", "1");// 莫删,否则报错
			table = AsyncRequestUtil.getJsonResult(map, "http://s.visitbeijing.com.cn/flow.php");
		} catch (Exception e) {
			e.printStackTrace();
		}
		return table;
	}

【AsyncRequestUtil.java】

package com.zhjy.zydc.util;

import java.util.Map;


/**
 * 异步请求数据
 * @author  	: Cuichenglong
 * @group   	: tgb
 * @Version 	: 1.00
 * @Date    	: 2014-5-28 上午09:54:20
 */
public class AsyncRequestUtil {

	/**
	 * 异步请求数据
	 * @Title: getJsonResult
	 * @param map
	 * @param strURL
	 * @return
	 */
	public static String getJsonResult(Map<String, Object> map, String strURL)throws Exception {

		/** 跨域登录,获取返回结果  **/
		String result = null;
		result = UrlUtil.getDataFromURL(strURL, map);
		if (result!=null && result.startsWith("null{")) {
			result = result.substring("null".length());
		}
		return result;
	}

}
UrlUtil .java
package com.zhjy.zydc.util;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.UnsupportedEncodingException;
import java.net.URL;
import java.net.URLConnection;
import java.net.URLDecoder;
import java.net.URLEncoder;
import java.util.ArrayList;
import java.util.Enumeration;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpSession;

/**
 * url跨域获取数据
 * @author  	: Cuichenglong
 * @group   	: Zhong Hai Ji Yuan
 * @Version 	: 1.00
 * @Date    	: 2014-5-27 下午04:14:26
 */
public final class UrlUtil {

	/**
	 * 根据URL跨域获取输出结果
	 * @Title: getDataFromURL
	 * @param strURL 要访问的URL地址
	 * @param param 参数
 	 * @return 结果字符串
	 * @throws Exception
	 */
	public static String getDataFromURL(String strURL, Map<String, Object> param) throws Exception{
		URL url = new URL(strURL);
		URLConnection conn = url.openConnection();
		conn.setDoOutput(true);	
		conn.setConnectTimeout(5000); //允许5秒钟的延迟:连接主机的超时时间(单位:毫秒)
		conn.setReadTimeout(5000); //允许5秒钟的延迟 :从主机读取数据的超时时间(单位:毫秒)

		OutputStreamWriter writer = new OutputStreamWriter(conn.getOutputStream());
		final StringBuilder sb = new StringBuilder(param.size() << 4); // 4次方
		final Set<String> keys = param.keySet();
		for (final String key : keys) {
			Object value = param.get(key);
			sb.append(key); // 不能包含特殊字符
			sb.append('=');
			//如果格式为String类型,则进行2次解码、2次编码操作
			if (value instanceof String) // String
			{
//				value = (URLDecoder.decode(URLDecoder.decode((String)value, "utf-8"),
//						"utf-8"));
//				value = (Object)(URLEncoder.encode(URLEncoder.encode((String)value, "utf-8"),
//						"utf-8"));
				value = URLEncoder.encode((String)value, "utf-8");
			}
			sb.append(value);
			sb.append('&');
		}
		// 将最后的 '&' 去掉
		sb.deleteCharAt(sb.length() - 1);
		// writer.write("email=pk3589@163.com&password=123");
		writer.write(sb.toString());
		writer.flush();
		writer.close();

		InputStreamReader reder = new InputStreamReader(conn.getInputStream(), "utf-8");

		BufferedReader breader = new BufferedReader(reder);

		// BufferedWriter w = new BufferedWriter(new FileWriter("d:/1.txt"));

		String content = null;
		String result = null;
		while ((content = breader.readLine()) != null) {
			result += content;
		}
	
		return result;

	}
}
       这是一段很简单的代码。是从http://s.visitbeijing.com.cn/flow.php网址中抓取日期的代码。

       其实只有2步,第一步是通过java.net.URL后台访问指定网址,并且拿到页面的html源码。第二步从html源码中通过正则表达式,获取日期。这里说一下正则表达式:

Pattern places = Pattern.compile("(<p align=\"center\">)([^\\s]*)");

       其中^表示屏蔽,\s表示空格,所以^\\s表示屏蔽空格,这里第一个\是转移字符。*表示匹配多个字符。

       通过matcher,获取匹配的值。在一次matcher.find()获取每一次匹配的数据,一个括号对应一个group。如果取matcher.group(1),则会取到<p align="center">。matcher.group(2)可以取到匹配的值。

      了解了这些,我们就可以随意的从某些网址上抓取数据了。有了数据,还有什么可以挡住我们前进的脚步!!!

目录
相关文章
|
9天前
|
API 数据库 Python
除了正则表达式,还有哪些方法可以验证用户输入数据的格式?
除了正则表达式,还有哪些方法可以验证用户输入数据的格式?
106 79
|
2月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
7月前
|
SQL 关系型数据库 数据处理
实时计算 Flink版产品使用问题之在同步数据时,是否可以使用正则表达式匹配进行源表到目标表的分库分表同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
XML 存储 数据采集
如何使用Python和正则表达式处理XML表单数据
如何使用Python和正则表达式处理XML表单数据
Python-初识正则表达式-指定匹配简单的日志数据
Python-初识正则表达式-指定匹配简单的日志数据
112 0
|
人工智能 编译器 Python
Python re 正则表达式 数据匹配提取 基本使用
模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本身需要使用反斜杠转义。 正则表达式通常都包含反斜杠"\\"以及小括号"\(\)",模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。
275 0
Python re 正则表达式 数据匹配提取 基本使用
|
物联网 Linux Android开发
一个在线学习正则表达式的网站
今天发现了一个不错的网站regexr.com,可以在线学习正则表达式。 如图,网站左边包含了常用的正则表达式,我们可以随时参考,右边是一些示例文字,英文段落、电话号码、网址、电子邮箱地址等都有。
1325 0
|
数据采集 测试技术
【正则表达式测试工具】使用正则表达式快速找出两列数据中不同的行
【正则表达式测试工具】使用正则表达式快速找出两列数据中不同的行
126 0
|
关系型数据库 MySQL
MySQL必知必会使用通配符和正则表达式数据过滤
MySQL必知必会使用通配符和正则表达式数据过滤
319 0