HtmlUtil

简介: package com.css.common.util; import org.apache.commons.lang.StringUtils; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.node

package com.css.common.util;

import org.apache.commons.lang.StringUtils;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

/**
 * 用于格式化HTML的工具类
 *
 * @version 1.0
 *
 */
public class HtmlUtil {

 /**
  * @param args
  */
 public static void main(String[] args) {
  String html = "<FONT CLASS=\"FrameItemFont\"><A HREF=\"org/htmlparser/lexer/package-frame.html\" target=\"packageFrame\">org.htmlparser.lexer</A></FONT><BR><FONT CLASS=\"FrameItemFont\"><A HREF=\"org/htmlparser/lexerapplications/tabby/package-frame.html\" target=\"packageFrame\">org.htmlparser.lexerapplications.tabby</A></FONT><BR><FONT CLASS=\"FrameItemFont\"><A HREF=\"org/htmlparser/lexerapplications/thumbelina/package-frame.html\" target=\"packageFrame\">org.htmlparser.lexerapplications.thumbelina</A></FONT><BR><FONT CLASS=\"FrameItemFont\"><A HREF=\"org/htmlparser/nodes/package-frame.html\" target=\"packageFrame\">org.htmlparser.nodes</A></FONT>";
  int pre_length = 150;
  String preview = preview(html, pre_length);
  System.out.println(html);
  System.out.println(html.substring(0, pre_length));
  System.out.println(preview);
 }

 private final static NodeFilter nfilter = new NodeFilter(){
  public boolean accept(Node arg0) {
   return true;
  }};
  
 /**
  * 生成预览内容
  * @param html
  * @param max_count
  * @return
  */
 public static String preview(String html, int max_count){
  if(html.length()<= max_count * 1.1)
   return html;
  Parser parser = new Parser();
  StringBuffer prvContent = new StringBuffer();
  try {
   parser.setEncoding("8859_1");
   parser.setInputHTML(html);
   NodeList nodes = parser.extractAllNodesThatMatch(nfilter);
   Node node = null;
   for(int i=0;i<nodes.size();i++){
    if(prvContent.length() >= max_count){
     if(node instanceof TagNode){
      TagNode tmp_node = (TagNode)node;
      boolean isEnd = tmp_node.isEndTag();
      if(!isEnd){
       prvContent.setLength(prvContent.length()-tmp_node.getText().length()-2);
      }
     }
     //补齐所有未关闭的标签
     Node parent = node;
     //System.out.println("current node is . "+parent.getText());
     do{
      parent = parent.getParent(); 
      //System.out.println("parent = "+parent);     
      if(parent==null) break;
      if(!(parent instanceof TagNode)) continue;
      //System.out.println("Parent node is no ended. "+parent.getText());
      prvContent.append(((TagNode)parent).getEndTag().toHtml());
     }while(true);
     break;
    }
    node = nodes.elementAt(i);
    if(node instanceof TagNode){
     TagNode tag = (TagNode)node;
     prvContent.append('<');
     prvContent.append(tag.getText());
     prvContent.append('>');
     //System.out.println("TAG: " + '<'+tag.getText()+'>');
    }
    else if(node instanceof TextNode){
     int space = max_count - prvContent.length();
     if(space > 10){
      TextNode text = (TextNode)node;
      if(text.getText().length() < 10)
       prvContent.append(text.getText());
      else
       prvContent.append(StringUtils.abbreviate(text.getText(), max_count - prvContent.length()));
      //System.out.println("TEXT: " + text.getText());
     }
    }
   }
   return prvContent.toString();
  } catch (ParserException e) {
   e.printStackTrace();
  }finally{
   parser = null;
  }
  return html;
 }
 
}

目录
相关文章
|
Dubbo Cloud Native Java
ZooKeeper 避坑实践:由于jute.maxbuffer 设置问题导致的集群不可用
微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。
ZooKeeper 避坑实践:由于jute.maxbuffer 设置问题导致的集群不可用
|
8月前
|
SQL 存储 Java
应用成本低出 N 倍的数据分析引擎 esProc SPL
我们介绍的 esProc SPL 是一个数据分析引擎,具备 4 个主要特点:低代码、高性能、轻量级、全功能。SPL 不仅写得简单,跑得也更快,既可以独立使用还能与应用集成嵌入,同时适用于多种应用场景。使用 esProc SPL 实现数据分析业务,整体应用成本将比以 SQL 为代表的传统技术低出几倍。
|
JavaScript iOS开发
JS判断IOS系统版本
JS判断IOS系统版本
328 0
|
存储 监控 IDE
【SpringCloud技术专题】「Resilience4j入门指南」(1)轻量级熔断框架的入门指南
【SpringCloud技术专题】「Resilience4j入门指南」(1)轻量级熔断框架的入门指南
364 0
【SpringCloud技术专题】「Resilience4j入门指南」(1)轻量级熔断框架的入门指南
|
存储 NoSQL 安全
❤啊!这就被黑了?❤ Redis 报 EXECABORT Transaction discarded because of previous errors 错误及解决方案❤️
❤啊!这就被黑了?❤ Redis 报 EXECABORT Transaction discarded because of previous errors 错误及解决方案❤️
784 0
|
应用服务中间件 nginx
NGINX如何设置X-Frame-Options头?
NGINX如何设置X-Frame-Options头?
1850 0
|
数据可视化 定位技术
【threejs】可视化大屏酷炫3D地图附源码
【threejs】可视化大屏酷炫3D地图附源码
【threejs】可视化大屏酷炫3D地图附源码
|
SQL JavaScript 前端开发
无事来学学--Kettle中脚本的使用
脚本是转换里面的第七个分类 脚本就是直接通过程序代码完成一些复杂的操作。
715 0
|
监控 应用服务中间件 Go
|
Java Maven 数据格式