一个XML文件可能含有CDATA区段数据,如何解析?

本文基于以下背景:

C++,TinyXml库(版本:2.6.1)

(1)什么是CDATA区段?

如果你要看详细的解释,可以参考这篇文章:http://www.w3school.com.cn/xml/xml_cdata.asp

这里简要地说明一下:XML文件中的CDATA区段以  <![CDATA[  开始,以  ]]>  结束,例如 <![CDATA[这是一段文本]]> ,CDATA区段中的文本不会被XML解析器解析,无论它们带有什么内容。因此,你可以用CDATA区段来存储含有不想被解析的文本(例如程序代码段)。

例如,一个XML文件内容如下:


<?xml version="1.0" ?>

<config>

    <property>

        <![CDATA[if(a<b){return 0;}]]>

    </property>

</config>

文章来源:http://www.codelast.com/

那么<property> </property>之间的内容解析出来之后是 if(a<b){return 0;} 。千万不要以为你解析出来的内容是包含CDATA等文字的!

对上面的结构的XML文件,使用TinyXml库来解析它时,先要得到<property>元素的指针(TiXmlElement* pProperty),然后再用方法pProperty->FirstChild()->Value()来获取CDATA区段的数据,返回的直接就是const char*了,可以保存在std::string中。

例如:

TiXmlDocument doc;

doc.LoadFile("/root/test.xml");

TiXmlElement* pRoot = doc.RootElement();

TiXmlElement* pProperty = pRoot->FirstChildElement();

std::string strCDATA = pProperty->FirstChild()->Value();    // strCDATA中就得到了 if(a<b){return 0;}

文章来源:http://www.codelast.com/

这里一定要注意的是,我们无法通过pProperty->GetText() 来获取CDATA区段中的文本!从上面的程序中,我们看到,TinyXml似乎是把 <![CDATA[if(a<b){return 0;}]]> 作 <property> 的一个child,这个child中的值(value)保存的就是我们要得到的文本。这个概念可能让人觉得有点奇怪,但只能这样做。