java写一个爬虫

简介:
package com.xh.crawle;

import java.io.BufferedReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import javax.sql.rowset.spi.SyncFactory;

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
/**
 * 多线程
 * @author kali
 *
 */
public class Test implements Runnable{
	String content;
	HttpClient client;
	GetMethod getMethod;
	String myDomain;
	static String strHomePage;
	static List<String> urls=new ArrayList<String>();
	
	int i=0;
	public String getContent(String url)
	{	i+=1;
		client=new HttpClient();
		getMethod=new GetMethod(url);
		StringBuffer buffer=new StringBuffer();
		InputStream in;
		try {
			int status=client.executeMethod(getMethod);
			if(status==HttpStatus.SC_OK)
			{
//				content=getMethod.getResponseBodyAsString();
				in=getMethod.getResponseBodyAsStream();
				content=in_str(in);
				FileWriter fileWriter=new FileWriter("F:\\jd2\\jd_"+i+"_"+Thread.currentThread().getName()+".html");
				buffer.append(content);
				fileWriter.write(buffer.toString());
				fileWriter.flush();
				fileWriter.close();
				//System.out.println(">>>>"+content);
				
				
				
			}
			
			getUrl(content);
			
			
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
			
		
		}
		
		return content;
	}
	
	
	public static void main(String[] args) throws InterruptedException {
		Test test=new Test();
		strHomePage="http://www.jd.com";
		for(int i=0;i<10;i++)
		{
			
			new Thread(test).start();
			Thread.currentThread().sleep(500);
		}
	}
	
	
	public List<String> getUrl(String cont)
	{
		 String tmpStr = cont;  
		 myDomain=getDomain();
		 String regUrl = "(?<=(href=)[\"]?[\']?)[http://][^\\s\"\'\\?]*("+ myDomain + ")[^\\s\"\'>]*";   
		   //正则
		   Pattern p = Pattern.compile(regUrl, Pattern.CASE_INSENSITIVE);//Pattern.CASE_INSENSITIVE 大小写不敏感
		   Matcher m = p.matcher(tmpStr);  
		   boolean blnp = m.find();  
		   while(blnp)
		   {
			  
			   
			   if (!urls.contains(m.group(0))) 
			   {
				   urls.add(m.group(0));
				   System.out.println("<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<"+m.group(0));
				   System.out.println("<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<"+urls.size());
			   }
			   tmpStr = tmpStr.substring(m.end(), tmpStr.length());  
			   m = p.matcher(tmpStr);  
			   blnp = m.find();  
			   
		   }
		
		return urls;
	}
	
	
	public String getDomain() {  
		   String reg = "(?<=http\\://[a-zA-Z0-9]{0,100}[.]{0,1})[^.\\s]*?\\.(com|cn|net|org|biz|info|cc|tv)";  
		   //String reg = "(?<=http\\://\\w{0,100}[.]{0,1})[^.\\s]*?\\.(com|cn|net|org|biz|info|cc|tv)"; 
			
		   Pattern p = Pattern.compile(reg, Pattern.CASE_INSENSITIVE);  
		   Matcher m = p.matcher(strHomePage);  
		   boolean blnp = m.find();  
		   if (blnp == true) {  
		    return m.group(0);  
		   }  
		   return null;  
		} 
	
	
	
	public synchronized void Crawle(List<String> list)
	{
		while(!list.isEmpty())
		{
			getContent(list.get(0));
			System.out.println("*************************************************"+list.get(0));
			System.out.println("*************************************************"+urls.size());
			list.remove(0);
		}
		
		
	}
	
	
	public String in_str(InputStream in) throws IOException
	{
		InputStreamReader inputStreamReader=new InputStreamReader(in);
		StringBuffer buffer=new StringBuffer();
		BufferedReader bufferedReader=new BufferedReader(inputStreamReader);
		String line=bufferedReader.readLine();
		while(line!=null)
		{
			buffer.append(line);
			line=bufferedReader.readLine();
		}
		
		return buffer.toString();
	}


	@Override
	public void run() {
		

		getContent(strHomePage);
		if(!urls.isEmpty())
		{
			
			Crawle(urls);
			
		}
		
	}
	
	
	
	
}

目录
相关文章
|
1月前
|
数据采集 JSON Java
Java爬虫获取1688店铺所有商品接口数据实战指南
本文介绍如何使用Java爬虫技术高效获取1688店铺商品信息,涵盖环境搭建、API调用、签名生成及数据抓取全流程,并附完整代码示例,助力市场分析与选品决策。
|
1月前
|
数据采集 存储 前端开发
Java爬虫性能优化:多线程抓取JSP动态数据实践
Java爬虫性能优化:多线程抓取JSP动态数据实践
|
9天前
|
数据采集 存储 弹性计算
高并发Java爬虫的瓶颈分析与动态线程优化方案
高并发Java爬虫的瓶颈分析与动态线程优化方案
|
11月前
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
7月前
|
数据采集 JSON Java
Java爬虫获取微店快递费用item_fee API接口数据实现
本文介绍如何使用Java开发爬虫程序,通过微店API接口获取商品快递费用(item_fee)数据。主要内容包括:微店API接口的使用方法、Java爬虫技术背景、需求分析和技术选型。具体实现步骤为:发送HTTP请求获取数据、解析JSON格式的响应并提取快递费用信息,最后将结果存储到本地文件中。文中还提供了完整的代码示例,并提醒开发者注意授权令牌、接口频率限制及数据合法性等问题。
|
5月前
|
数据采集 存储 网络协议
Java HttpClient 多线程爬虫优化方案
Java HttpClient 多线程爬虫优化方案
|
7月前
|
数据采集 存储 Java
Java爬虫获取微店店铺所有商品API接口设计与实现
本文介绍如何使用Java设计并实现一个爬虫程序,以获取微店店铺的所有商品信息。通过HttpClient发送HTTP请求,Jsoup解析HTML页面,提取商品名称、价格、图片链接等数据,并将其存储到本地文件或数据库中。文中详细描述了爬虫的设计思路、代码实现及注意事项,包括反爬虫机制、数据合法性和性能优化。此方法可帮助商家了解竞争对手,为消费者提供更全面的商品比较。
|
7月前
|
数据采集 算法 Java
如何在Java爬虫中设置动态延迟以避免API限制
如何在Java爬虫中设置动态延迟以避免API限制
|
数据采集 存储 Java
Java爬虫图像处理:从获取到解析
Java爬虫图像处理:从获取到解析
|
10月前
|
数据采集 存储 Web App开发
Java爬虫:深入解析商品详情的利器
在数字化时代,信息处理能力成为企业竞争的关键。本文探讨如何利用Java编写高效、准确的商品详情爬虫,涵盖爬虫技术概述、Java爬虫优势、开发步骤、法律法规遵守及数据处理分析等内容,助力电商领域市场趋势把握与决策支持。