开发者社区> 技术小阿哥> 正文

Dom4j格式化转义字符问题

简介:
+关注继续查看
Dom4j格式化转义字符问题
 
1、不得不说的XML CDATA部件
 
在XML文档中的所有文本都会被解析器解析。
 
只有在CDATA部件之内的文本会被解析器忽略。
 
不合法的XML字符必须被替换为相应的实体。
 
如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。
 
&lt; < 小于号
&gt; > 大于号
&amp; &
&apos; ' 单引号
&quot; " 双引号

实体必须以符号"&"开头,以符号";"结尾。 
注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。

CDATA部件
在CDATA内部的所有内容都会被解析器忽略。
如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。
一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束:

CDATA注意事项:
CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,将很有可能出错哦。
同样要注意在字符串"]]>"之间没有空格或者换行符。
 
2、Dom4j格式化转义字符问题
 
person.xml
<?xml version="1.0" encoding="UTF-8"?> 
<person> 
        <name>张三</name> 
        <addr><![CDATA[经三路<鑫苑>19F]]></addr> 
</person>
 
上面的XML在被Dom4j格式化的时候,自动会被转义,转义后的内容如下:
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname>&lt;![CDATA[经三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
 
这样,显然不是想要的结果,因为CDATA不需要再转义了。如何处理该问题,看下面的程序的处理:
import org.dom4j.Document; 
import org.dom4j.DocumentHelper; 
import org.dom4j.Element; 
import org.dom4j.io.OutputFormat; 
import org.dom4j.io.XMLWriter; 

import java.io.IOException; 
import java.io.StringWriter; 
import java.util.Date; 

/** 
* Created by IntelliJ IDEA. 

* @author leizhimin 2010-7-10 16:03:39 
*/
 
public class Person { 
        private String name; 
        private String addr; 

        public Person(String name, String addr) { 
                this.name = name; 
                this.addr = addr; 
        } 

        public static void main(String[] args) { 
                Person p = new Person("张三""经三路<鑫苑>19F"); 
                p.showXml(); 
        } 

        public void showXml() { 
                String xml1, xml2, xml3; 
                Document doc = DocumentHelper.createDocument(); 
                doc.setXMLEncoding("GBK"); 
                Element root = doc.addElement("person"); 
                if (addr != null
                        addElement(root, "toname""<![CDATA[" + this.addr + "]]>"); 
                else 
                        addElement(root, "toname"this.addr); 

                xml1 = doc.asXML();                                        //默认转义 
                xml2 = formatXml(doc, "GBK"true);        //转义 
                xml3 = formatXml(doc, "GBK"false);     //不转义 
                System.out.println(xml1); 
                System.out.println("-------------------------"); 
                System.out.println(xml2); 
                System.out.println("-------------------------"); 
                System.out.println(xml3); 
        } 

        /** 
         * 在指定的元素下添加一个新的子元素 
         * 
         * @param e         父元素 
         * @param name    子元素名 
         * @param value 子元素值 
         * @return 新加子元素 
         */
 
        public static Element addElement(Element e, String name, Object value) { 
                Element x = e.addElement(name); 
                if (value == null || "".equals(value.toString().trim())) { 
                        x.setText(""); 
                } else if (value instanceof Date) { 
                        x.setText(DateToolkit.toISOFormat((Date) value)); 
                } else { 
                        x.setText(value.toString()); 
                } 
                return x; 
        } 

        /** 
         * 格式化XML文档 
         * 
         * @param document xml文档 
         * @param charset    字符串的编码 
         * @param istrans    是否对属性和元素值进行转移 
         * @return 格式化后XML字符串 
         */
 
        public static String formatXml(Document document, String charset, boolean istrans) { 
                OutputFormat format = OutputFormat.createPrettyPrint(); 
                format.setEncoding(charset); 
                StringWriter sw = new StringWriter(); 
                XMLWriter xw = new XMLWriter(sw, format); 
                xw.setEscapeText(istrans); 
                try { 
                        xw.write(document); 
                        xw.flush(); 
                        xw.close(); 
                } catch (IOException e) { 
                        System.out.println("格式化XML文档发生异常,请检查!"); 
                        e.printStackTrace(); 
                } 
                return sw.toString(); 
        } 
}
 
输出结果:
<?xml version="1.0" encoding="GBK"?>
<person><toname>&lt;![CDATA[经三路&lt;鑫苑&gt;19F]]&gt;</toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname>&lt;![CDATA[经三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>

Process finished with exit code 0
 
可以看出,最后一种输出是真正想要的结果。
 
因此,要控制转义的问题,必须对XML重新格式化,格式化的时候,需要设置:
        xw.setEscapeText(false);


本文转自 leizhimin 51CTO博客,原文链接:http://blog.51cto.com/lavasoft/347348,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
JavaScript 空白字符
JavaScript 空白字符
10 0
JavaScript字符串的拼接和转义字符
JavaScript字符串的拼接和转义字符 这篇博文主要讲一下字符串的拼接和转义字符的简单使用。 1.字符串的拼接 // js字符串的拼接 + var str="hello"; var str1="world"; console.log(str+str1); // var str=``;//模板字符串 console.log(`${str}${str1}`); // 外单内双 外双内单 var str3='"'; var str4="'"; console.log(str3); doc
76 0
如何在 JavaScript 中的字符串的字符之间添加空格
在今天的文章中,我们将学习如何轻松地在 JavaScript 中的字符串字符之间包含空格。
84 0
5 种在 JavaScript 中获取字符串第一个字符的方法
在本文中,我们将研究多种方法来轻松获取 JavaScript 中字符串的第一个字符。
73 0
获取字符串内双引号中的所有内容
获取字符串内双引号中的所有内容
37 0
hutool工具数字转字符串并格式化多余的0
hutool工具数字转字符串并格式化多余的0
451 0
Javascript 字符串与文本格式化
字符串 JavaScript中的 String 类型用于表示文本型的数据. 它是由无符号整数值(16bit)作为元素而组成的集合. 字符串中的每个元素在字符串中占据一个位置. 第一个元素的index值是0, 下一个元素的index值是1, 以此类推. 字符串的长度就是字符串中所含的元素个数.你可以通过String字面值或者String对象两种方式创建一个字符串。
168 0
JavaScript 技术篇-js正则表达式匹配字符串左右两边是否包含空格
JavaScript 技术篇-js正则表达式匹配字符串左右两边是否包含空格
302 0
【JavaScript框架封装】JavaScript中的文本字符串的转义和反转义的实现
版权声明:本文为博主原创文章,未经博主允许不得转载。更多学习资料请访问我爱科技论坛:www.52tech.tech https://blog.csdn.net/m0_37981569/article/details/81105949 ...
929 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载