`

Dom4j创建修改格式化解析XML文件及中文处理(转)

阅读更多

本文主要讨论了用dom4j解析XML的基础问题,包括建立XML文档,添加、修改、删除节点,以及格式化(美化)输出和中文问题。可作为dom4j的入门资料。

1. 下载与安装

dom4j是sourceforge.net上的一个开源项目,主要用于对XML的解析。从2001年7月发布第一版以来,已陆续推出多个版本,目前最高版本为1.5。
dom4j专门针对Java开发,使用起来非常简单、直观,在Java界,dom4j正迅速普及。

可以到
http://sourceforge.net/projects/dom4j下载其最新版。

dom4j1.5的完整版大约13M,是一个名为dom4j-1.5.zip的压缩包,解压后有一个dom4j-1.5.jar文件,这就是应用时需要引入的类包,另外还有一个jaxen-1.1-beta-4.jar文件,一般也需要引入,否则执行时可能抛java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常,其他的包可以选择用之。

2. 示例XML文档(holen.xml)

为了述说方便,先看一个XML文档,之后的操作均以此文档为基础。

  1. holen.xml 
  2. <?xml version="1.0" encoding="UTF-8"?>
  3. <books>
  4.     <!--This is a test for dom4j, holen, 2004.9.11-->
  5.     <book show="yes">
  6.        <title>Dom4j Tutorials</title>
  7.     </book>
  8.     <book show="yes">
  9.        <title>Lucene Studing</title>
  10.     </book>
  11.     <book show="no">
  12.        <title>Lucene in Action</title>
  13.     </book>
  14.     <owner>O'Reilly</owner>
  15. </books>

这是一个很简单的XML文档,场景是一个网上书店,有很多书,每本书有两个属性,一个是书名[title],一个为是否展示[show],最后还有一项是这些书的拥有者[owner]信息。

3. 建立一个XML文档

  1. /**
  2.      * 建立一个XML文档,文档名由输入属性决定
  3.      * @param filename 需建立的文件名
  4.      * @return 返回操作结果, 0表失败, 1表成功
  5.      */
  6.     public int createXMLFile(String filename){
  7.        /** 返回操作结果, 0表失败, 1表成功 */
  8.        int returnValue = 0;
  9.        /** 建立document对象 */
  10.        Document document = DocumentHelper.createDocument();
  11.        /** 建立XML文档的根books */
  12.        Element booksElement = document.addElement("books");
  13.        /** 加入一行注释 */
  14.        booksElement.addComment("This is a test for dom4j, holen, 2004.9.11");
  15.        /** 加入第一个book节点 */
  16.        Element bookElement = booksElement.addElement("book");
  17.        /** 加入show属性内容 */
  18.        bookElement.addAttribute("show","yes");
  19.        /** 加入title节点 */
  20.        Element titleElement = bookElement.addElement("title");
  21.        /** 为title设置内容 */
  22.        titleElement.setText("Dom4j Tutorials");
  23.        
  24.        /** 类似的完成后两个book */
  25.        bookElement = booksElement.addElement("book");
  26.        bookElement.addAttribute("show","yes");
  27.        titleElement = bookElement.addElement("title");
  28.        titleElement.setText("Lucene Studing");
  29.        bookElement = booksElement.addElement("book");
  30.        bookElement.addAttribute("show","no");
  31.        titleElement = bookElement.addElement("title");
  32.        titleElement.setText("Lucene in Action");
  33.        
  34.        /** 加入owner节点 */
  35.        Element ownerElement = booksElement.addElement("owner");
  36.        ownerElement.setText("O'Reilly");
  37.        
  38.        try{
  39.            /** 将document中的内容写入文件中 */
  40.            XMLWriter writer = new XMLWriter(new FileWriter(new File(filename)));
  41.            writer.write(document);
  42.            writer.close();
  43.            /** 执行成功,需返回1 */
  44.            returnValue = 1;
  45.        }catch(Exception ex){
  46.            ex.printStackTrace();
  47.        }
  48.               
  49.        return returnValue;
  50.     }

说明:
Document document = DocumentHelper.createDocument();
通过这句定义一个XML文档对象。

Element booksElement = document.addElement("books");
通过这句定义一个XML元素,这里添加的是根节点。
Element有几个重要的方法:
l         addComment:添加注释
l         addAttribute:添加属性
l         addElement:添加子元素

最后通过XMLWriter生成物理文件,默认生成的XML文件排版格式比较乱,可以通过OutputFormat类的createCompactFormat()方法或createPrettyPrint()方法格式化输出,默认采用createCompactFormat()方法,显示比较紧凑,这点将在后面详细谈到。

生成后的holen.xml文件内容如下:

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <books><!--This is a test for dom4j, holen, 2004.9.11--><book show="yes"><title>Dom4j Tutorials</title></book><book show="yes"><title>Lucene Studing</title></book><book show="no"><title>Lucene in Action</title></book><owner>O'Reilly</owner></books>

4. 修改XML文档

有三项修改任务,依次为:
l         如果book节点中show属性的内容为yes,则修改成no
l         把owner项内容改为Tshinghua,并添加date节点
l         若title内容为Dom4j Tutorials,则删除该节点

  1.    /**
  2.      * 修改XML文件中内容,并另存为一个新文件
  3.      * 重点掌握dom4j中如何添加节点,修改节点,删除节点
  4.      * @param filename 修改对象文件
  5.      * @param newfilename 修改后另存为该文件
  6.      * @return 返回操作结果, 0表失败, 1表成功
  7.      */
  8.     public int ModiXMLFile(String filename,String newfilename){
  9.        int returnValue = 0;
  10.        try{
  11.            SAXReader saxReader = new SAXReader(); 
  12.            Document document = saxReader.read(new File(filename));
  13.            /** 修改内容之一: 如果book节点中show属性的内容为yes,则修改成no */
  14.            /** 先用xpath查找对象 */
  15.            List list = document.selectNodes("/books/book/@show" ); 
  16.            Iterator iter = list.iterator();
  17.            while(iter.hasNext()){
  18.               Attribute attribute = (Attribute)iter.next();
  19.               if(attribute.getValue().equals("yes")){
  20.                   attribute.setValue("no");
  21.               }   
  22.            }
  23.            
  24.            /**
  25.             * 修改内容之二: 把owner项内容改为Tshinghua
  26.             * 并在owner节点中加入date节点,date节点的内容为2004-09-11,还为date节点添加一个属性type
  27.             */
  28.            list = document.selectNodes("/books/owner" );
  29.            iter = list.iterator();
  30.            if(iter.hasNext()){
  31.               Element ownerElement = (Element)iter.next();
  32.               ownerElement.setText("Tshinghua");
  33.               Element dateElement = ownerElement.addElement("date");
  34.               dateElement.setText("2004-09-11");
  35.               dateElement.addAttribute("type","Gregorian calendar");
  36.            }
  37.            
  38.            /** 修改内容之三: 若title内容为Dom4j Tutorials,则删除该节点 */
  39.            list = document.selectNodes("/books/book");
  40.            iter = list.iterator();
  41.            while(iter.hasNext()){
  42.               Element bookElement = (Element)iter.next();
  43.               Iterator iterator = bookElement.elementIterator("title");
  44.               while(iterator.hasNext()){
  45.                   Element titleElement=(Element)iterator.next();
  46.                   if(titleElement.getText().equals("Dom4j Tutorials")){
  47.                      bookElement.remove(titleElement);
  48.                   }
  49.               }
  50.            }          
  51.            
  52.            try{
  53.               /** 将document中的内容写入文件中 */
  54.               XMLWriter writer = new XMLWriter(new FileWriter(new File(newfilename)));
  55.               writer.write(document);
  56.               writer.close();
  57.               /** 执行成功,需返回1 */
  58.               returnValue = 1;
  59.            }catch(Exception ex){
  60.               ex.printStackTrace();
  61.            }
  62.            
  63.        }catch(Exception ex){
  64.            ex.printStackTrace();
  65.        }
  66.        return returnValue;
  67.     }
  68.      

说明:
List list = document.selectNodes("/books/book/@show" );
list = document.selectNodes("/books/book");
上述代码通过xpath查找到相应内容。

通过setValue()、setText()修改节点内容。

通过remove()删除节点或属性。

5. 格式化输出和指定编码

默认的输出方式为紧凑方式,默认编码为UTF-8,但对于我们的应用而言,一般都要用到中文,并且希望显示时按自动缩进的方式的显示,这就需用到OutputFormat类。


  1.     /**
  2.      * 格式化XML文档,并解决中文问题
  3.      * @param filename
  4.      * @return
  5.      */
  6.     public int formatXMLFile(String filename){
  7.        int returnValue = 0;
  8.        try{
  9.            SAXReader saxReader = new SAXReader(); 
  10.            Document document = saxReader.read(new File(filename));
  11.            XMLWriter writer = null;
  12.            /** 格式化输出,类型IE浏览一样 */
  13.            OutputFormat format = OutputFormat.createPrettyPrint();
  14.            /** 指定XML编码 */
  15.            format.setEncoding("GBK");
  16.            writer= new XMLWriter(new FileWriter(new File(filename)),format);
  17.            writer.write(document);
  18.            writer.close();      
  19.            /** 执行成功,需返回1 */
  20.            returnValue = 1;     
  21.        }catch(Exception ex){
  22.            ex.printStackTrace();
  23.        }
  24.        return returnValue;
  25.     }

说明:

OutputFormat format = OutputFormat.createPrettyPrint();
这句指定了格式化的方式为缩进式,则非紧凑式。

format.setEncoding("GBK");
指定编码为GBK。

XMLWriter writer = new XMLWriter(new FileWriter(new File(filename)),format);
这与前面两个方法相比,多加了一个OutputFormat对象,用于指定显示和编码方式。

6. 完整的类代码

前面提出的方法都是零散的,下面给出完整类代码。

  1. Dom4jDemo.java 
  2. package com.holen.dom4j;

  3. import java.io.File;
  4. import java.io.FileWriter;
  5. import java.util.Iterator;
  6. import java.util.List;

  7. import org.dom4j.Attribute;
  8. import org.dom4j.Document;
  9. import org.dom4j.DocumentHelper;
  10. import org.dom4j.Element;
  11. import org.dom4j.io.OutputFormat;
  12. import org.dom4j.io.SAXReader;
  13. import org.dom4j.io.XMLWriter;

  14. //如果是UTF-8 FileWriter 改用 FileOutputStream 
  15. public class Dom4jDemo{
  16.   public Dom4jDemo (){}
   public static void main (String[] args){
          Dom4jDemo temp = new Dom4jDemo();
         temp.createXMLFile("D:/beans.xml");
         temp.ModiXMLFile("D:/beans.xml","D:/beans1.xml");
          temp.formatXMLFile("D:/beans1.xml");
      }
  1. }

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics