一个XML文件可能含有CDATA区段数据,如何解析?
本文基于以下背景:
C++,TinyXml库(版本:2.6.1)
(1)什么是CDATA区段?
如果你要看详细的解释,可以参考这篇文章:http://www.w3school.com.cn/xml/xml_cdata.asp
这里简要地说明一下:XML文件中的CDATA区段以 <![CDATA[ 开始,以 ]]> 结束,例如 <![CDATA[这是一段文本]]> ,CDATA区段中的文本不会被XML解析器解析,无论它们带有什么内容。因此,你可以用CDATA区段来存储含有不想被解析的文本(例如程序代码段)。
例如,一个XML文件内容如下:
<?xml version="1.0" ?>
<config>
<property>
<![CDATA[if(a<b){return 0;}]]>
</property>
</config>
文章来源:http://www.codelast.com/
那么<property>和 </property>之间的内容解析出来之后是 if(a<b){return 0;} 。千万不要以为你解析出来的内容是包含CDATA等文字的!
对上面的结构的XML文件,使用TinyXml库来解析它时,先要得到<property>元素的指针(TiXmlElement* pProperty),然后再用方法pProperty->FirstChild()->Value()来获取CDATA区段的数据,返回的直接就是const char*了,可以保存在std::string中。
例如:
TiXmlDocument doc;
doc.LoadFile("/root/test.xml");
TiXmlElement* pRoot = doc.RootElement();
TiXmlElement* pProperty = pRoot->FirstChildElement();
std::string strCDATA = pProperty->FirstChild()->Value(); // strCDATA中就得到了 if(a<b){return 0;}
文章来源:http://www.codelast.com/
这里一定要注意的是,我们无法通过pProperty->GetText() 来获取CDATA区段中的文本!从上面的程序中,我们看到,TinyXml似乎是把 <![CDATA[if(a<b){return 0;}]]> 当作 <property> 的一个child,这个child中的值(value)保存的就是我们要得到的文本。这个概念可能让人觉得有点奇怪,但只能这样做。