一个SAX RSS解析器的核心部分

简介:
 

message对象,用来存储每个rss中的一条新闻

1: package com.leipei.rss;

   2:  
   3: import java.net.MalformedURLException;
   4: import java.net.URL;
   5: import java.text.ParseException;
   6: import java.text.SimpleDateFormat;
   7: import java.util.Date;
   8:  
   9: /*
  10:  * 每条rss消息的结构体
  11:  */
  12: public class Message implements Comparable<Message> {
  13:     static SimpleDateFormat FORMATTER = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
  14:     /*
  15:      * 每条rss消息都至少包含tile,link,description,pubdate字段
  16:      */
  17:     private String title=null;
  18:     private URL link=null;
  19:     private String description=null;
  20:     private Date pubDate=null;
  21:     
  22:     public String getTitle() {
  23:         return title;
  24:     }
  25:  
  26:     public void setTitle(String title) {
  27:         this.title = title;
  28:     }
  29:  
  30:     // getters and setters omitted for brevity
  31:     public URL getLink() {
  32:         return link;
  33:     }
  34:  
  35:     public void setLink(String link) {
  36:         try {
  37:             this.link = new URL(link);
  38:         } catch (MalformedURLException e) {
  39:             throw new RuntimeException(e);
  40:         }
  41:     }
  42:  
  43:     public String getDescription() {
  44:         return description;
  45:     }
  46: /*
  47:  * 里面加append部分是为了解决类似网易新闻中description tag解析两次的问题
  48:  */
  49:     public void setDescription(String description) {
  50:         if( this.description==null){
  51:             this.description=description;
  52:             }else{
  53:                 this.description=this.description+description;
  54:             }
  55:     }
  56:  
  57:     public String getDate() {
  58:         return FORMATTER.format(this.pubDate);
  59:     }
  60:  
  61:     public void setDate(String date) {
  62:         try {
  63:             if (date == null || date.equals("")) {
  64:                 this.pubDate = null;
  65:             } else {
  66:                 this.pubDate = FORMATTER.parse(date);
  67:             }
  68:         } catch (ParseException e) {
  69:             e.printStackTrace();
  70:         }
  71:         System.out.println("date string is:\t" + date);
  72:     }
  73:  
  74:     @Override
  75:     public String toString() {
  76:         StringBuilder sb = new StringBuilder();
  77:         sb.append("Title: ");
  78:         sb.append(title);
  79:         sb.append('\n');
  80:         sb.append("Date: ");
  81:         sb.append(this.getDate());
  82:         sb.append('\n');
  83:         sb.append("Link: ");
  84:         sb.append(link);
  85:         sb.append('\n');
  86:         sb.append("Description: ");
  87:         sb.append(description);
  88:         return sb.toString();
  89:     }
  90:  
  91:     @Override
  92:     public int hashCode() {
  93:         final int prime = 31;
  94:         int result = 1;
  95:         result = prime * result + ((this.pubDate == null) ? 0 : this.pubDate.hashCode());
  96:         result = prime * result
  97:                 + ((description == null) ? 0 : description.hashCode());
  98:         result = prime * result + ((link == null) ? 0 : link.hashCode());
  99:         result = prime * result + ((title == null) ? 0 : title.hashCode());
 100:         return result;
 101:     }
 102:  
 103:     @Override
 104:     public boolean equals(Object obj) {
 105:         if (this == obj)
 106:             return true;
 107:         if (obj == null)
 108:             return false;
 109:         if (getClass() != obj.getClass())
 110:             return false;
 111:         Message other = (Message) obj;
 112:         if (this.pubDate == null) {
 113:             if (other.pubDate != null)
 114:                 return false;
 115:         } else if (!this.pubDate.equals(other.pubDate))
 116:             return false;
 117:         if (description == null) {
 118:             if (other.description != null)
 119:                 return false;
 120:         } else if (!description.equals(other.description))
 121:             return false;
 122:         if (link == null) {
 123:             if (other.link != null)
 124:                 return false;
 125:         } else if (!link.equals(other.link))
 126:             return false;
 127:         if (title == null) {
 128:             if (other.title != null)
 129:                 return false;
 130:         } else if (!title.equals(other.title))
 131:             return false;
 132:         return true;
 133:     }
 134:  
 135:     public int compareTo(Message another) {
 136:         if (another == null)
 137:             return 1;
 138:         return another.pubDate.compareTo(this.pubDate);
 139:     }
 140: }

RSS解析器实现部分,采用SAX方式解析

1: package com.leipei.rss;

   2:  
   3: import java.util.ArrayList;
   4: import java.util.List;
   5: import java.util.Stack;
   6:  
   7: import org.xml.sax.Attributes;
   8: import org.xml.sax.SAXException;
   9: import org.xml.sax.helpers.DefaultHandler;
  10:  
  11: public class RssHandler extends DefaultHandler {
  12:  
  13:     /*
  14:      * 通常的RSS源实际上是个xml文件.里面包含多个item节点,每个item节点是一条新闻.
  15:      * 每个item节点至少包含title,link,description,pubDate这四个子节点,其实很多rss源还有补充的节点
  16:      */
  17:     static final String ITEM = "item";
  18:     static final String TITLE = "title";
  19:     static final String LINK = "link";
  20:     static final String DESCRIPTION = "description";
  21:     static final String PUB_DATE = "pubDate";
  22:  
  23:     private Stack<String> currentElement = new Stack<String>();
  24:     private Message currentMessage;
  25:     private List<Message> messgelist = new ArrayList<Message>();;
  26:  
  27:     public void startElement(String uri, String localName, String qName,
  28:             Attributes attrs) throws SAXException {
  29:         currentElement.push(qName);
  30:         System.out.println("start parse '" + currentElement.peek() + "'");
  31:         if (currentElement.peek().equalsIgnoreCase(ITEM)) {
  32:             System.out.println("Create message ");
  33:             this.currentMessage = new Message();
  34:         }
  35:  
  36:     }
  37:  
  38:     public void endElement(String namespaceURI, String localName, String qName)
  39:             throws SAXException {
  40:         System.out.println("end parse element " + currentElement.peek());
  41:  
  42:         if (currentElement.peek().equalsIgnoreCase(ITEM)
  43:                 && this.currentMessage != null) {
  44:             this.messgelist.add(this.currentMessage);
  45:             this.currentMessage = null;
  46:         }
  47:         currentElement.pop();
  48:  
  49:     }
  50:  
  51:     public void characters(char[] ch, int start, int length)
  52:             throws SAXException {
  53:         String cdata = new String(ch, start, length);
  54:         String tagName = currentElement.peek();
  55:  
  56:         System.out.println("Element '" + tagName + "' contains text: " + cdata);
  57:         if (this.currentMessage != null) {
  58:             if (this.currentElement.peek().equalsIgnoreCase(TITLE)) {
  59:                 currentMessage.setTitle(cdata);
  60:             } else if (this.currentElement.peek().equalsIgnoreCase(LINK)) {
  61:                 currentMessage.setLink(cdata);
  62:             } else if (this.currentElement.peek().equalsIgnoreCase(DESCRIPTION)) {
  63:                 currentMessage.setDescription(cdata);
  64:             } else if (this.currentElement.peek().equalsIgnoreCase(PUB_DATE)) {
  65:                 System.out.println("setting pubdate:\t" + cdata);
  66:                 currentMessage.setDate(cdata);
  67:             }
  68:         } else {
  69:             System.out.println("null message");
  70:         }
  71:     }
  72:  
  73:     public List<Message> getMessaList() {
  74:         return this.messgelist;
  75:     }
  76:  
  77:     /*
  78:      * 打印解析的消息结果
  79:      */
  80:     public void printMessageList() {
  81:         if (this.messgelist != null) {
  82:             for (Message message : this.messgelist) {
  83:                 if (message != null) {
  84:                     System.out.println(message.toString());
  85:                 } else {
  86:                     System.out.println("null list");
  87:                 }
  88:             }
  89:         }
  90:     }
  91:  
  92: }
分类:  android


本文转自leipei博客园博客,原文链接:http://www.cnblogs.com/leipei2352/archive/2011/08/30/2159042.html,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
XML JavaScript Java
【JAVA XML 探秘】DOM、SAX、StAX:揭秘 Java 中 XML 解析技术的终极指南!
【8月更文挑战第25天】本文详细探讨了Java中三种主流的XML解析技术:DOM、SAX与StAX。DOM将XML文档转换为树状结构,便于全方位访问和修改;SAX采取事件驱动模式,适用于大型文件的顺序处理;StAX则兼具DOM和SAX的优点,支持流式处理和随机访问。文中提供了每种技术的示例代码,帮助读者理解如何在实际项目中应用这些解析方法。
163 1
|
3月前
|
XML JavaScript API
DOM 和 SAX 解析器之间的区别
【8月更文挑战第22天】
43 0
|
3月前
|
XML JavaScript Java
Java 中 DOM 和 SAX 解析器之间的区别
【8月更文挑战第22天】
25 0
|
5月前
|
XML 缓存 搜索推荐
RSS 解析:全球内容分发的利器及使用技巧
RSS(Really Simple Syndication)是一种 XML 格式,用于网站内容的聚合和分发,让用户能快速浏览和跟踪更新。RSS 文档结构包括 `&lt;channel&gt;` 和 `&lt;item&gt;` 元素,允许内容创作者分享标题、链接和描述。通过 RSS,用户可以定制新闻源,过滤不相关信息,提高效率。RSS 支持不同版本,如 RSS 0.91 和 RSS 2.0,其中 RSS 2.0 语法简单且广泛使用。RSS 提高网站流量,适用于新闻、博客、日历等频繁更新的站点。RSS 的历史始于 1997 年,至今仍无官方标准,但已成为内容共享的重要工具。
317 0
|
6月前
|
XML JavaScript Java
Java一分钟之-XML解析:DOM, SAX, StAX
Java中的XML解析包括DOM、SAX和StAX三种方法。DOM将XML加载成内存中的树形结构,适合小文件和需要随意访问的情况,但消耗资源大。SAX是事件驱动的,逐行读取,内存效率高,适用于大型文件,但编程复杂。StAX同样是事件驱动,但允许程序员控制解析流程,低内存占用且更灵活。每种方法都有其特定的易错点和避免策略,选择哪种取决于实际需求。
127 0
|
6月前
|
Linux
百度搜索:蓝易云【深入解析Linux进程内存:VSS、RSS、PSS、USS及查看方式】
通过以上方法,你可以深入了解Linux进程的内存使用情况,包括VSS、RSS、PSS、USS等指标,帮助你进行性能优化和资源管理。
140 12
|
XML 存储 JavaScript
SAX解析XML
SAX解析XML
78 0
|
XML API 数据格式
sax 解析的过程| 学习笔记
快速学习 sax 解析的过程。
sax 解析的过程| 学习笔记
|
Linux Shell Android开发
Linux内存工具解析之RSS/VSS/USS/PSS区别于联系
Linux内存工具解析之RSS/VSS/USS/PSS区别于联系
1161 0
|
XML JavaScript 安全
Java解析XML(DOM解析和SAX解析)
Java解析XML(DOM解析和SAX解析)
772 0
Java解析XML(DOM解析和SAX解析)

推荐镜像

更多