JAVA解析HTML

2016-01-26 3463

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

htmlparser

htmlparser是一个纯的java写的html（标准通用标记语言下的一个应用）解析的库，它不依赖于其它的java库文件，主要用于改造或
提取html。
无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。

示例代码：

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.CssSelectorNodeFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

/**
 * 封装的HtmlParser实现的解析器
 * 
 * @author jianggujin
 * 
 */
public class HQHtmlParser
{
   /** 解析器 **/
   private Parser parser = null;
   /** 重置 **/
   private boolean needReset = false;

   /**
    * 构造方法
    * 
    * @param resource
    * @throws ParserException
    */
   public HQHtmlParser(String resource) throws ParserException
   {
      parser = new Parser(resource);
   }

   /**
    * 重置
    */
   private void reset()
   {
      if (needReset)
      {
         parser.reset();
      }
      needReset = true;
   }

   /**
    * 通过id获得元素
    * 
    * @param id
    * @return
    * @throws ParserException
    */
   public Node getElementById(String id) throws ParserException
   {
      reset();
      NodeFilter filter = new HasAttributeFilter("id", id);
      NodeList nodes = parser.extractAllNodesThatMatch(filter);
      return nodes != null && nodes.size() > 0 ? nodes.elementAt(0) : null;
   }

   /**
    * 通过一组id获得元素
    * 
    * @param ids
    * @return
    * @throws ParserException
    */
   public NodeList getElementByIds(String... ids) throws ParserException
   {
      reset();
      NodeFilter[] predicates = new HasAttributeFilter[ids.length];
      for (int i = 0; i < predicates.length; i++)
      {
         predicates[i] = new HasAttributeFilter("id", ids[i]);
      }
      NodeFilter filter = new OrFilter(predicates);
      return parser.extractAllNodesThatMatch(filter);
   }

   /**
    * 通过标签名称获得元素
    * 
    * @param name
    * @return
    * @throws ParserException
    */
   public NodeList getElementsByTagName(String name) throws ParserException
   {
      reset();
      NodeFilter filter = new TagNameFilter(name);
      return parser.extractAllNodesThatMatch(filter);
   }

   /**
    * 通过样式获得元素
    * 
    * @param name
    * @return
    * @throws ParserException
    */
   public NodeList getElementsByCSS(String selector) throws ParserException
   {
      reset();
      NodeFilter filter = new CssSelectorNodeFilter(selector);
      return parser.extractAllNodesThatMatch(filter);
   }

   /**
    * 通过过滤器获得元素
    * 
    * @param filter
    * @return
    * @throws ParserException
    */
   public NodeList getElementsByFilter(NodeFilter filter)
         throws ParserException
   {
      reset();
      return parser.extractAllNodesThatMatch(filter);
   }
}

jsoup

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

示例代码：

import java.util.ArrayList;
import java.util.List;

import org.htmlparser.util.ParserException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * 封装的Jsoup实现的解析器
 * 
 * @author jianggujin
 * 
 */
public class HQJSoup
{
   private Document document = null;

   /**
    * 构造方法
    * 
    * @param resource
    * @throws ParserException
    */
   public HQJSoup(String resource) throws ParserException
   {
      // Jsoup还有其他构造方法
      document = Jsoup.parse(resource);
   }

   /**
    * 通过id获得元素
    * 
    * @param id
    * @return
    */
   public Element getElementById(String id)
   {
      return document.getElementById(id);
   }

   /**
    * 通过一组id获得元素
    * 
    * @param ids
    * @return
    */
   public List<Element> getElementByIds(String... ids) throws ParserException
   {
      List<Element> elements = new ArrayList<Element>(ids.length);
      for (String id : ids)
      {
         elements.add(getElementById(id));
      }
      return elements;
   }

   /**
    * 通过标签名称获得元素
    * 
    * @param name
    * @return
    */
   public Elements getElementsByTagName(String name)
   {
      return document.getElementsByTag(name);
   }
}

JAVA解析HTML

htmlparser

jsoup

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

JAVA解析HTML

htmlparser

jsoup

热门文章

最新文章

相关课程

相关电子书

推荐镜像