数据模型

为了适应统计与科学数据的特点,应当采用与常规数据库不同的数据模型。这种数据模型的要点是对于其分类属性采用由叉乘节点(简称 X 节点) 及集结节点(简称 C 节点)所构成多维表格形式,也可以树的形式来表示。叉乘节点用于表示分类属性中多维的本质,如只用行与列则可表示属性的二维特点。鉴于一般都使用二维的表格,所以我们可以在根节点下人为地加上二个叉乘节点,以构成只有行和列的二维表格结构。集结节点(简称 C 节点) 用于表示它们之间的族集特点。如行政区中的省市则有北京市、河北省等等。这样在下面所给出的简单人口统计表中的分类属性就可以用相应的由叉乘节点和集结节点构成的多维表格式或树形结构来表示。汇总属性数据则按照其相应的分类值进行定位,并根据不同的分类属性分别存储而构成转置文件。

由于在实际应用中人们遇到的统计与科学数据往往比较复杂,它们既十分接近上述数据模型但又不能有效地用上述模型来支持。在进行了较广泛的调查研究以后,我们提出了一种新的混合模型,可以支持这类数据。

统计数据库除了应具有与常规数据所类似的数据操纵,还应当有它自己所特有的数据操纵。如分类属性的位置变更、重新划分以及聚集运算等。由于机构变更等原因,会使分类属重新划分,而使其相应汇总属性值的归属重新安排。如海南建省,则与海南有关的数据应从广东省中分离出来,重新排列。

聚集运算的特点是:如在集结点下面给定其中某个节点则系统将针对该节点进行聚集,而在叉乘节点下未给定的节点,则应对其下面的所有节点进行聚集。

统计数据库的统计算法应当是相当完善的。一般应有矩阵算法、基于统计量计算、回归分析、统计参数估计、分布参数检验、非参数检验、数据平滑与滤波、经验分布曲线的选配、统计用表、相关分析等。统计与科学数据的二维输出格式是很复杂的。这种基本的表格输出格式也应由数据库管理系统提供。