java采集网页数据方法【多线程数据采集之一】

简介:

第一步抓取数据。

java采集网页数据。获取html文本节点

有几种办法。

第一种: 采用HttpURLConnection

 
  1. package com.yjf.util;   
  2.    
  3. import java.io.BufferedReader;   
  4. import java.io.IOException;   
  5. import java.io.InputStream;   
  6. import java.io.InputStreamReader;   
  7. import java.net.HttpURLConnection;   
  8. import java.net.URL;   
  9.    
  10. public class HttpWebUtil {   
  11.        
  12.     /**  
  13.      *网页抓取方法  
  14.      * @param urlString      要抓取的url地址  
  15.      * @param charset        网页编码方式  
  16.      * @param timeout        超时时间  
  17.      * @return               抓取的网页内容  
  18.      * @throws IOException   抓取异常  
  19.      */   
  20.     public static String GetWebContent(String urlString, final String charset, int timeout) throws IOException {   
  21.         if (urlString == null || urlString.length() == 0) {   
  22.             return "";   
  23.         }   
  24.         urlString = (urlString.startsWith("http://") || urlString.startsWith("https://")) ? urlString : ("http://" + urlString).intern();   
  25.         URL url = new URL(urlString);   
  26.         HttpURLConnection conn = (HttpURLConnection) url.openConnection();   
  27.         conn.setDoOutput(true);      
  28.         conn.setRequestProperty("Pragma""no-cache");      
  29.         conn.setRequestProperty("Cache-Control""no-cache");      
  30.            
  31.         int temp = Integer.parseInt(Math.round(Math.random()*(UserAgent.length-1))+"");   
  32.         conn.setRequestProperty(   
  33.                 "User-Agent",   
  34.                     UserAgent[temp]);  // 模拟手机系统   
  35.         conn.setRequestProperty("Accept""text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");//只接受text/html类型,当然也可以接受图片,pdf,*/*任意,就是tomcat/conf/web里面定义那些   
  36.         conn.setConnectTimeout(timeout);   
  37.         try {   
  38.             if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) {   
  39.                 return "";   
  40.             }   
  41.         } catch (Exception e) {   
  42.             try {   
  43.                 System.out.println(e.getMessage());   
  44.             } catch (Exception e2) {   
  45.                 e2.printStackTrace();   
  46.             }   
  47.             return "";   
  48.         }   
  49.         InputStream input = conn.getInputStream();   
  50.         BufferedReader reader = new BufferedReader(new InputStreamReader(input,   
  51.                 charset));   
  52.         String line = null;   
  53.         StringBuffer sb = new StringBuffer("");   
  54.         while ((line = reader.readLine()) != null) {   
  55.             sb.append(line).append("\r\n");   
  56.         }   
  57.         if (reader != null) {   
  58.             reader.close();   
  59.         }   
  60.         if (conn != null) {   
  61.             conn.disconnect();   
  62.         }   
  63.         return sb.toString();   
  64.     }   
  65.        
  66.     public static String[] UserAgent = {   
  67.         "Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.2",   
  68.         "Mozilla/5.0 (iPad; U; CPU OS 3_2_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B500 Safari/531.21.11",   
  69.         "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18121",   
  70.         "Nokia5700AP23.01/SymbianOS/9.1 Series60/3.0",   
  71.         "UCWEB7.0.2.37/28/998",   
  72.         "NOKIA5700/UCWEB7.0.2.37/28/977",   
  73.         "Openwave/UCWEB7.0.2.37/28/978",   
  74.         "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/989"   
  75.     };   
  76.        
  77. }   

第二种:采用jar插件Jsoup.jar 

 

org.jsoup.Jsoup

 
  1. //站点入口列表   
  2.     public static List<String> getSiteUrlList1(List<String> list,String listurl){   
  3.         if(list==null || list.size()<=0){   
  4.             list = new ArrayList<String>();   
  5.         }   
  6.         try {   
  7.             Document docdata = Jsoup.connect(listurl).timeout(10000).get();   
  8.             String hb = ".m_book li a";   
  9.             String page = ".page_list .page_up";   
  10.             Elements ele = docdata.select(hb);   
  11.             for (Element el : ele) {   
  12.                 list.add(el.attr("href"));   
  13.             }   
  14.             if(docdata.select(page)!=null && docdata.select(page).first()!=null){   
  15.                 String url = "http://www.xxxxx.com/site_map/"+docdata.select(page).first().attr("href");   
  16.                 getSiteUrlList1(list, url);   
  17.             }   
  18.         } catch (Exception e) {   
  19.             e.printStackTrace();   
  20.         }   
  21.         return list;   
  22.     }   

第三种:http模拟器

可以请求表单数据和 重定向

http://blog.csdn.net/yjflinchong/article/details/8004706 

 

 

以上先描述第一步抓取数据。后期加入多线程网络数据采集完整介绍。



      本文转自yjflinchong 51CTO博客,原文链接:http://blog.51cto.com/yjflinchong/1165160,如需转载请自行联系原作者






相关文章
|
1月前
|
自然语言处理 Java 关系型数据库
Java|小数据量场景的模糊搜索体验优化
在小数据量场景下,如何优化模糊搜索体验?本文分享一个简单实用的方案,虽然有点“土”,但效果还不错。
32 0
|
1月前
|
Java 开发者
Java 中的 toString() 方法详解:为什么它如此重要?
在Java开发中,`toString()`方法至关重要,用于返回对象的字符串表示。默认实现仅输出类名和哈希码,信息有限且不直观。通过重写`toString()`,可展示对象字段值,提升调试效率与代码可读性。借助Lombok的`@Data`注解,能自动生成标准化的`toString()`方法,简化开发流程,尤其适合字段较多的场景。合理运用`toString()`,可显著提高开发效率与代码质量。
89 0
|
5天前
|
数据采集 自然语言处理 Java
Playwright 多语言一体化——Python/Java/.NET 全栈采集实战
本文以反面教材形式,剖析了在使用 Playwright 爬取懂车帝车友圈问答数据时常见的配置错误(如未设置代理、Cookie 和 User-Agent),并提供了 Python、Java 和 .NET 三种语言的修复代码示例。通过错误示例 → 问题剖析 → 修复过程 → 总结教训的完整流程,帮助读者掌握如何正确配置爬虫代理及其它必要参数,避免 IP 封禁和反爬检测,实现高效数据采集与分析。
Playwright 多语言一体化——Python/Java/.NET 全栈采集实战
|
10天前
|
搜索推荐 Java 定位技术
Java实现利用GeoLite2-City.mmdb根据IP定位城市的方法
在城市,国家,地区等地理位置数据获取之后,你可以依指定的业务需求,来进行进一步的数据处理。例如,你可以设计一个应用,根据用户的 IP 地址来个性化地展示内容,或者用于分析网络请求的来源等。
60 20
|
18天前
|
SQL Java 数据库连接
Java中实现SQL分页的方法
无论何种情况,选择适合自己的,理解了背后的工作原理,并能根据实际需求灵活变通的方式才是最重要的。
39 9
|
1月前
|
数据采集 自然语言处理 JavaScript
Playwright多语言生态:跨Python/Java/.NET的统一采集方案
随着数据采集需求的增加,传统爬虫工具如Selenium、Jsoup等因语言割裂、JS渲染困难及代理兼容性差等问题,难以满足现代网站抓取需求。微软推出的Playwright框架,凭借多语言支持(Python/Java/.NET/Node.js)、统一API接口和优异的JS兼容性,解决了跨语言协作、动态页面解析和身份伪装等痛点。其性能优于Selenium与Puppeteer,在学术数据库(如Scopus)抓取中表现出色。行业应用广泛,涵盖高校科研、大型数据公司及AI初创团队,助力构建高效稳定的爬虫系统。
Playwright多语言生态:跨Python/Java/.NET的统一采集方案
|
18天前
|
Java
java 多线程异常处理
本文介绍了Java中ThreadGroup的异常处理机制,重点讲解UncaughtExceptionHandler的使用。通过示例代码展示了当线程的run()方法抛出未捕获异常时,JVM如何依次查找并调用线程的异常处理器、线程组的uncaughtException方法或默认异常处理器。文章还提供了具体代码和输出结果,帮助理解不同处理器的优先级与执行逻辑。
|
4天前
|
安全 Java API
【Java性能优化】Map.merge()方法:告别繁琐判空,3行代码搞定统计累加!
在日常开发中,我们经常需要对Map中的值进行累加统计。}else{代码冗长,重复调用get()方法需要显式处理null值非原子操作,多线程下不安全今天要介绍的方法,可以让你用一行代码优雅解决所有这些问题!方法的基本用法和优势与传统写法的对比分析多线程安全版本的实现Stream API的终极优化方案底层实现原理和性能优化建议一句话总结是Java 8为我们提供的Map操作利器,能让你的统计代码更简洁、更安全、更高效!// 合并两个列表});简单累加。
32 0
|
1月前
|
存储 Java 开发者
Java 中的 equals 方法:看似简单,实则深藏玄机
本文深入探讨了Java中`equals`方法的设计与实现。默认情况下,`equals`仅比较对象引用是否相同。以`String`类为例,其重写了`equals`方法,通过引用判断、类型检查、长度对比及字符逐一比对,确保内容相等的逻辑。文章还强调了`equals`方法需遵循的五大原则(自反性、对称性等),以及与`hashCode`的关系,避免集合操作中的潜在问题。最后,对比了`instanceof`和`getClass()`在类型判断中的优劣,并总结了正确重写`equals`方法的重要性,帮助开发者提升代码质量。
84 1
|
2月前
|
安全 IDE Java
重学Java基础篇—Java Object类常用方法深度解析
Java中,Object类作为所有类的超类,提供了多个核心方法以支持对象的基本行为。其中,`toString()`用于对象的字符串表示,重写时应包含关键信息;`equals()`与`hashCode()`需成对重写,确保对象等价判断的一致性;`getClass()`用于运行时类型识别;`clone()`实现对象复制,需区分浅拷贝与深拷贝;`wait()/notify()`支持线程协作。此外,`finalize()`已过时,建议使用更安全的资源管理方式。合理运用这些方法,并遵循最佳实践,可提升代码质量与健壮性。
87 1

热门文章

最新文章