java采集网页数据方法【多线程数据采集之一】

简介:

第一步抓取数据。

java采集网页数据。获取html文本节点

有几种办法。

第一种: 采用HttpURLConnection

 
  1. package com.yjf.util;   
  2.    
  3. import java.io.BufferedReader;   
  4. import java.io.IOException;   
  5. import java.io.InputStream;   
  6. import java.io.InputStreamReader;   
  7. import java.net.HttpURLConnection;   
  8. import java.net.URL;   
  9.    
  10. public class HttpWebUtil {   
  11.        
  12.     /**  
  13.      *网页抓取方法  
  14.      * @param urlString      要抓取的url地址  
  15.      * @param charset        网页编码方式  
  16.      * @param timeout        超时时间  
  17.      * @return               抓取的网页内容  
  18.      * @throws IOException   抓取异常  
  19.      */   
  20.     public static String GetWebContent(String urlString, final String charset, int timeout) throws IOException {   
  21.         if (urlString == null || urlString.length() == 0) {   
  22.             return "";   
  23.         }   
  24.         urlString = (urlString.startsWith("http://") || urlString.startsWith("https://")) ? urlString : ("http://" + urlString).intern();   
  25.         URL url = new URL(urlString);   
  26.         HttpURLConnection conn = (HttpURLConnection) url.openConnection();   
  27.         conn.setDoOutput(true);      
  28.         conn.setRequestProperty("Pragma""no-cache");      
  29.         conn.setRequestProperty("Cache-Control""no-cache");      
  30.            
  31.         int temp = Integer.parseInt(Math.round(Math.random()*(UserAgent.length-1))+"");   
  32.         conn.setRequestProperty(   
  33.                 "User-Agent",   
  34.                     UserAgent[temp]);  // 模拟手机系统   
  35.         conn.setRequestProperty("Accept""text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");//只接受text/html类型,当然也可以接受图片,pdf,*/*任意,就是tomcat/conf/web里面定义那些   
  36.         conn.setConnectTimeout(timeout);   
  37.         try {   
  38.             if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) {   
  39.                 return "";   
  40.             }   
  41.         } catch (Exception e) {   
  42.             try {   
  43.                 System.out.println(e.getMessage());   
  44.             } catch (Exception e2) {   
  45.                 e2.printStackTrace();   
  46.             }   
  47.             return "";   
  48.         }   
  49.         InputStream input = conn.getInputStream();   
  50.         BufferedReader reader = new BufferedReader(new InputStreamReader(input,   
  51.                 charset));   
  52.         String line = null;   
  53.         StringBuffer sb = new StringBuffer("");   
  54.         while ((line = reader.readLine()) != null) {   
  55.             sb.append(line).append("\r\n");   
  56.         }   
  57.         if (reader != null) {   
  58.             reader.close();   
  59.         }   
  60.         if (conn != null) {   
  61.             conn.disconnect();   
  62.         }   
  63.         return sb.toString();   
  64.     }   
  65.        
  66.     public static String[] UserAgent = {   
  67.         "Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.2",   
  68.         "Mozilla/5.0 (iPad; U; CPU OS 3_2_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B500 Safari/531.21.11",   
  69.         "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18121",   
  70.         "Nokia5700AP23.01/SymbianOS/9.1 Series60/3.0",   
  71.         "UCWEB7.0.2.37/28/998",   
  72.         "NOKIA5700/UCWEB7.0.2.37/28/977",   
  73.         "Openwave/UCWEB7.0.2.37/28/978",   
  74.         "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/989"   
  75.     };   
  76.        
  77. }   

第二种:采用jar插件Jsoup.jar 

 

org.jsoup.Jsoup

 
  1. //站点入口列表   
  2.     public static List<String> getSiteUrlList1(List<String> list,String listurl){   
  3.         if(list==null || list.size()<=0){   
  4.             list = new ArrayList<String>();   
  5.         }   
  6.         try {   
  7.             Document docdata = Jsoup.connect(listurl).timeout(10000).get();   
  8.             String hb = ".m_book li a";   
  9.             String page = ".page_list .page_up";   
  10.             Elements ele = docdata.select(hb);   
  11.             for (Element el : ele) {   
  12.                 list.add(el.attr("href"));   
  13.             }   
  14.             if(docdata.select(page)!=null && docdata.select(page).first()!=null){   
  15.                 String url = "http://www.xxxxx.com/site_map/"+docdata.select(page).first().attr("href");   
  16.                 getSiteUrlList1(list, url);   
  17.             }   
  18.         } catch (Exception e) {   
  19.             e.printStackTrace();   
  20.         }   
  21.         return list;   
  22.     }   

 

 

第三种:http模拟器

可以请求表单数据和 重定向

http://blog.csdn.net/yjflinchong/article/details/8004706 

 

 

以上先描述第一步抓取数据。后期加入多线程网络数据采集完整介绍。

 



      本文转自yjflinchong 51CTO博客,原文链接:http://blog.51cto.com/yjflinchong/1165163,如需转载请自行联系原作者






相关文章
|
6天前
|
安全 Java API
java如何请求接口然后终止某个线程
通过本文的介绍,您应该能够理解如何在Java中请求接口并根据返回结果终止某个线程。合理使用标志位或 `interrupt`方法可以确保线程的安全终止,而处理好网络请求中的各种异常情况,可以提高程序的稳定性和可靠性。
37 6
|
19天前
|
存储 监控 小程序
Java中的线程池优化实践####
本文深入探讨了Java中线程池的工作原理,分析了常见的线程池类型及其适用场景,并通过实际案例展示了如何根据应用需求进行线程池的优化配置。文章首先介绍了线程池的基本概念和核心参数,随后详细阐述了几种常见的线程池实现(如FixedThreadPool、CachedThreadPool、ScheduledThreadPool等)的特点及使用场景。接着,通过一个电商系统订单处理的实际案例,分析了线程池参数设置不当导致的性能问题,并提出了相应的优化策略。最终,总结了线程池优化的最佳实践,旨在帮助开发者更好地利用Java线程池提升应用性能和稳定性。 ####
|
15天前
|
安全 算法 Java
Java多线程编程中的陷阱与最佳实践####
本文探讨了Java多线程编程中常见的陷阱,并介绍了如何通过最佳实践来避免这些问题。我们将从基础概念入手,逐步深入到具体的代码示例,帮助开发者更好地理解和应用多线程技术。无论是初学者还是有经验的开发者,都能从中获得有价值的见解和建议。 ####
|
15天前
|
Java 调度
Java中的多线程编程与并发控制
本文深入探讨了Java编程语言中多线程编程的基础知识和并发控制机制。文章首先介绍了多线程的基本概念,包括线程的定义、生命周期以及在Java中创建和管理线程的方法。接着,详细讲解了Java提供的同步机制,如synchronized关键字、wait()和notify()方法等,以及如何通过这些机制实现线程间的协调与通信。最后,本文还讨论了一些常见的并发问题,例如死锁、竞态条件等,并提供了相应的解决策略。
40 3
|
16天前
|
监控 Java 开发者
深入理解Java中的线程池实现原理及其性能优化####
本文旨在揭示Java中线程池的核心工作机制,通过剖析其背后的设计思想与实现细节,为读者提供一份详尽的线程池性能优化指南。不同于传统的技术教程,本文将采用一种互动式探索的方式,带领大家从理论到实践,逐步揭开线程池高效管理线程资源的奥秘。无论你是Java并发编程的初学者,还是寻求性能调优技巧的资深开发者,都能在本文中找到有价值的内容。 ####
|
21天前
|
缓存 Java 开发者
Java多线程并发编程:同步机制与实践应用
本文深入探讨Java多线程中的同步机制,分析了多线程并发带来的数据不一致等问题,详细介绍了`synchronized`关键字、`ReentrantLock`显式锁及`ReentrantReadWriteLock`读写锁的应用,结合代码示例展示了如何有效解决竞态条件,提升程序性能与稳定性。
77 6
|
19天前
|
监控 Java 数据库连接
Java线程管理:守护线程与用户线程的区分与应用
在Java多线程编程中,线程可以分为守护线程(Daemon Thread)和用户线程(User Thread)。这两种线程在行为和用途上有着明显的区别,了解它们的差异对于编写高效、稳定的并发程序至关重要。
28 2
|
19天前
|
监控 Java 开发者
Java线程管理:守护线程与本地线程的深入剖析
在Java编程语言中,线程是程序执行的最小单元,它们可以并行执行以提高程序的效率和响应性。Java提供了两种特殊的线程类型:守护线程和本地线程。本文将深入探讨这两种线程的区别,并探讨它们在实际开发中的应用。
27 1
|
21天前
|
安全 Java 开发者
Java中的多线程编程:从基础到实践
本文深入探讨了Java多线程编程的核心概念和实践技巧,旨在帮助读者理解多线程的工作原理,掌握线程的创建、管理和同步机制。通过具体示例和最佳实践,本文展示了如何在Java应用中有效地利用多线程技术,提高程序性能和响应速度。
54 1
|
2月前
|
存储 消息中间件 资源调度
C++ 多线程之初识多线程
这篇文章介绍了C++多线程的基本概念,包括进程和线程的定义、并发的实现方式,以及如何在C++中创建和管理线程,包括使用`std::thread`库、线程的join和detach方法,并通过示例代码展示了如何创建和使用多线程。
58 1
C++ 多线程之初识多线程
下一篇
DataWorks