当在关系数据库中保存XML文档的时候,由于采用方法上的原因,尤其是对于大量的文档,你一定碰到过很多问题。这一篇文章将提出与大量XML文档相关的特定的问题,然后给出解决这些问题的方法。

数量非常大的文档的潜在问题

什么东西使得一个XML文档变得非常巨大?一个XML文档变得巨大的其中一个迹象是文档启动的时候就出现问题。现在让我们讨论其中的潜在问题。

首先是有关原始空间(raw space)的观点。出现的问题与频率和空间相关。并不是你的文档大于通常情况下的状态,而是你频繁地使用它们。你必须需要有一个良好的尺寸数据分区来存放这些文档(或者数据库)。

第二,运行数据库可能会产生错误。有时候XML文档会分成多个部分,并存放在代表XML文档结构的不连续的表中,但通常情况下,XML文档存放在BLOB域,文本域,或者VARCHAR域中。

除在设计上的缺欠之外,你还有可能碰到与数据库相互通讯的界面上的问题。例如,绝大多数SQL执行都限制数据为4,096字节——这就意味着,当使用SQL必向数据库发送10KB文档的时候,你会遭到障碍。在数据库存储程序中也会存在类似的限制。如果你没有意识到这些限制以及你的文档超出范围,你将会碰到这些问题。

数据库设计

开发人员和数据库管理人员必须清楚地理解XML文档中将要产生的操作,这样才有可能正确地设计数据库。理解数据库将如何被使用也同样是相当的重要。你的XML文档是简单的连续存放机制?还是存放在非连续的状态之中?

如果你以整块方式存储整个文档,这样你就有多种选择。对于非连续数据,你应该设计出代表XML结构的表,并将数据分开存放在独立的表中。第二个步骤的优点是在于可索引性和可查询性,而你不需要对整个文档进行操作。

BLOB(二进制大型对象)域被用于存储大型的二进制格式的数据。例如,加密文件常用于BLOB域。BLOB域非常适合于存放XML文件。BLOB域的缺点是它不是可索引性和可查询性,以及不能通过标准的SQL与BLOB交换大量的数据。

分割

解决SQL限制的其中一个方法是将XML文档分割成为4KB或小的块。这些小块再存放在表中,然后使用ID域将这些小块联系起来。

当你存储这些文档的时候,你应该将它们分割成为小块并存放在表中。当你返回文档时,你通过特定的ID选择所有的块,然后以合适的顺序对它们进行集合。虽然比较麻烦,但这一方法对于多数据库非常有用。

捆绑及BLOB访问

大型BLOB数据的问题在于你不能使用SQL存储和获得数据。近年来每一种数据库商家都具有自己的存储和获得大型对象的方法。

为了在一个BLOB域中存储大量的XML文档,你必须使用捆绑(binding)。捆绑是将数据从程序代码与数据库中的域相互联系的过程。使用这一方法,当改变数据库的时候,会有可能影响数据库的其他功能。

总结

在关系数据库中存储大量XML文档会导致很多问题。解决这些问题的首要步骤是深刻理解XML文档中的参数。然后正确地设计合适的解决方法。解决方法可以包括:一系列的结构表,将XML文档分割为小块,或者直接捆绑到数据库中的BLOB域。