王育红1, 2 陈军1
1.武汉大学遥感信息工程学院 武汉 430079 wyh3003@tom.com
2.国家基础地理信息中心 北京 100044
摘 要:随着我国基础地理信息数据库(称为主数据库)更新工作的实施,如何利用主数据库的更新信息快速更新其用户(或客户)数据库的问题已引起人们的关注。由于主/客户数据库是被不同的用户基于不同的数据模型独立设计的,而且不同的用户对现实世界中的实体采用各自的视点和表达方式,因此它们之间会存在一定的差异和冲突。本文首先以基础地理信息数据库中的地形数据库(1:250000)和水利、交通两个部门的专题型数据库为例,介绍它们之间存在的主要差异,然后对这些差异进行明确定义,最后指出异质空间数据库间实现更新传播的基本途径。 关键词:主数据库 客户数据库 冲突 更新传播
1.引言
空间数据库是描述、存储和处理空间数据及其属性数据的数据库系统。随着空间信息技术的不断发展,许多行业和部门已经纷纷建立了具有各自特点的空间数据库,其中我国测绘部门已基本完成系列比例尺基础地理信息数据库的建设任务,并在其他行业部门所建的专题型/应用型数据库中发挥着重要的空间框架参考作用。由于空间数据库所描述的现实世界时刻处于变化之中,因此需要对其进行定期或持续更新。随着基础地理信息数据库(称为主数据库)更新维护工作的实施【苏武山等,2003;商瑶玲等,2003】,人们已开始关注如何利用主数据库的更新信息快速更新其他部门的主题型/应用型数据库(称为客户数据库)的问题【陈军,李志林,蒋捷,2003】。由于主/客户数据库是被不同的用户基于不同的数据模型独立设计的,而且不同的用户对现实世界中的实体采用各自的视点和表达方式,使得它们之间存在一定的差异和冲突【Cheng H. G.,1997;张斌等,1997】。因此利用主数据库的更新信息快速实现客户数据库更新的基本前提是明确这些差异和冲突的具体表现形式。
人们对异质数据库间冲突的研究先后开始于多数据库系统(MDBS),联邦数据库(FDB),数据仓库等领域,近年来GIS领域也对异质空间数据库间的冲突和差异类型进行了初步研究【Bishr, 1998;Park, 1999】,所提出的分类体系之间相互交叉,并缺乏充分的实例说明。本文首先以基础地理信息数据库中的地形数据库(1:250000)和水利、交通两个部门的专题型数据库为例,介绍它们之间主要差异的表现形式。在总结前人冲突分类体系的基础上,本文对这些差异进行明确定义。为降低数据采集成本,缩短更新周期,提高更新数据利用率,需要将一个空间数据库的更新信息传递到其他现势性差的相关空间数据库中去(更新传播),但由于各种冲突的存在不能简单地利用新数据直接替换新数据,因此最后作者分析了实现异质空间数据库间更新传播的基本途径。
2.实例分析
∗
∗
国家自然科学基金重点项目(GIS空间数据库更新的模型与方法研究 编号:40337055)资助
1998年国家测绘局建成了1:250000基础地形数据库,并广泛应用于宏观管理、决策支持、资源调查、空间定位、科学研究等领域【商瑶玲等,2001】。由于应用目的的不同,基础地形数据往往经过过滤,扩展,改造等处理过程之后,用户才能建立了自己的专题或应用型空间数据库,该过程导致用户数据库和地形数据库之间存在一定的差异。作者以水利、交通两部门为例,调研了他们所建的空间数据库,并与1:250000地形数据库进行了比较。
2.1 三种数据库(地形/水利/公路)概述
地形数据库建库时以我国现有80年代出版的1:250000地形图为基本信息源,采用ArcInfo的Coverage数据格式对空间数据加以存储管理,按照地形图分幅标准将全国划分为816个图幅(Tile),每个图幅内包含水系、政区、居民地、铁路、公路、地貌、土地覆盖等十四个层(Layer)。
国家水利部经过近三年的努力,参考1:250000万地形数据库和其他水文勘测资料,目前已完成1:250000水利基础电子地图数据库(简称水利数据库)的建设工作。该库在ArcInfo 8平台上按照水利部门定义的一级流域范围将全国划分为七个Tile,依据水利行业标准分别采集了河流(2289条)、湖泊(2251个)、水库(3087个)、蓄滞洪区(96个)、水文报汛站(7981)、水闸(1939个)、堤防(4800多条)等水利专题要素的图形和属性信息。
交通部门目前所建立的公路数据库主要由图形数据库和专题属性数据库两个子数据库组成,前者描述公路要素的空间分布特征,而后者记录公路要素的道路技术等级、路面等级、路面宽度等专题信息。两个子库之间通过相同的道路ID建立联系,以使道路的图形数据与属性数据有机地结合在一起。其中图形数据库将全国视为一个Tile,该Tile内由两个分别描述国/省道和县道空间特征的Layer组成。
2.2地形/水利数据库之间的差异
1)地形数据库将现实世界中的水系要素抽象概括为线状水系要素类、面状水系要素类、点状水系类要素等三个基本类别,然后通过每个要素类的分类代码(GB)来判断其在现实世界中的真实含义(如河流、水库、湖泊等),而水利数据库是将现实世界中的水系要素(河流、湖泊等)分别直接视为一种要素类。这种差异的存在使得地形数据库中一个数据表中对应于水利数据库中的多个数据表(如图1)。
图1.地形数据库和水利数据库之间水系要素分类方式的差异
2)地形数据库和水利数据库分别采用不同数目、不同含义、不同类型的属性字段
描述水系要素的特征,其中相同含义的属性却被分配了不同名称的字段名称。如地形数据库中的面状水系要素和水利数据库中的河流要素其关系模式可以分别表示为:
①地形数据库中面状水系要素的关系模式 hydnt.pat{shape, Code, GB, TN, Name, HYDC} 其中:
hydnt.pat: 面状要素的关系(表)名称。
― Shape: 描述面状要素的几何属性,类型为Polygon; ― Code:记录要素的临时分类代码,类型为Integer(3); ― GB:记录要素的国标分类码,类型为Integer(5); ― TN:接口码,类型为Integer(6); ― Name: 要素名称,类型为Char(20); ― HYDC: 要素代码,类型为Chr(6)。
②水利数据库中河流要素的关系模式 heliu.aat{shape, ENNM, ENNMCD, T} 其中:
heliu.aat:河流要素的关系(表)名称。
― Shape: 描述河流要素的几何属性,类型为Polyline; ― ENNM:河流要素名称,类型为Chr(40); ― ENNMCD:河流要素代码,类型为Chr(12);
。 ― T:河流等级,类型为Char(1)
从上面的分析中可以看出:Name和ENNM都描述要素的名称却具有不同的标识符;同样,HYDC和ENNMCD都记录要素代码也具有不同的标识符。而Shape字段都描述要素的几何属性却具有不同的数据类型。
3)地形数据库建库数据采用的主要依据是经国家测绘局批准的《国家基础地理信息系统全国1:25万数据库技术规定》(通用和数据采集部分)(1996年2月修改版),其包含国家基本比例尺地形图上的各类水系要素。而依据水利部门行业标准(《中国国河流名称代码SL249-1999》,《 中国水库名称代码SL259-2000》,《 中国湖泊名称代码SL216-1998》 等)建成的水利数据库只采集这些标准中列举的要素。不同的标准约束使地形数据库和水利数据库中的数据内容不能一一对应。
图2. 标准不同造成的要素间的不一致性(以河流为例)
4)在要素的几何属性上,地形数据库和水利数据库之间也存在差异。如,同一河流要素在地形数据库中以“面(多边形)”表示,而在水利数据库中则表示为“线”(见图2);地形数据库中对于其中有“岛屿”的面状要素采用带“洞”的多边形加以描述(如图3中的a),而水利数据库则采用简单的多边形只描述要素的外部轮廓(如图3中的b)。
图3.地形数据库和水利数据库中面状要素的几何属性差异
5)在专题属性上,地形数据库和水利数据库之间也存在差异,主要表现为同一要素的相同属性被赋予了不同的值。如不同的编码标准,导致要素代码值之间的不一致(见表1):地形数据库中河流要素的代码标准采用《全国河流名称代码(送审稿)》的编码体系,其他水系要素的代码为空;水利数据库中的河流、水库、湖泊等要素分别采用水利行业标准:《中国国河流名称代码SL249-1999》,《 中国水库名称代码SL259-2000》,《 中国湖泊名称代码SL216-1998》等规定的编码方式。
表1. 地形数据库和水利数据库中要素代码冲突示例
要素名称 昆明湖 密云水库
地形数据库中的代码
水利数据库中的代码
ACC00006 永定河 CB0503 - C11A501 - BCB11000091
另外针对要素的名称,地形数据库和水利数据库之间也存在差异,主要表现为如图4所示的三种形式:①地形数据库中要素名称为空,水利数据库中要素名称非空;②两者名称均非空,但不相同;③名称相同,但空间位置不同。
图4. 地形/水利数据库间要素名称间的不一致(以水库为例)
6)在空间数据库建库时往往将一个要素分为不同的组成部分加以采集存储,而不同的操作员会将同一要素分成不同的组成部分,使得不同空间数据库中的记录之间的存在1:N、N:1、N:M等多种对应关系。地形数据库和水利数据库之间的这种差异主要体现在线状要素之间,如地形数据库中一条河流由六段组成(如图5中的a所示),而水利
数据库中该条河流只有一段组成(如图5中的b所示)。
图5.地形数据库和水利数据库中河段划分方式的差异
2.3 地形/公路数据库之间的差异
相对于水利数据库,公路数据库(图形数据库部分)与地形数据库之间的差异的较少,主要表现如下形式:
1)地形数据库将所有公路只归为一类,可以通过道路的分类代码(GB)区分为国道、省道、县道、其他公路及附属设施等类型,而公路数据库将道路分为国/省道和县道两类。(情况如2.2部分中的1)
2)地形数据库和公路数据库采用不同的属性字段描述公路要素特征,其中存在相同含义的属性具有不同的属性名,以及不同含义的属性具有相同属性名的情况。地形数据库和公路数据库中道路要素的关系模式可以表示如下:
①地形数据库中道路水系要素的关系模式 roalk.aat{shape, Code, GB, TN, Name, HYDC} 其中:
hydnt.pat: 地形数据库中道路要素的关系(表)名称。 ― Shape: 描述道路要素的几何属性,类型为Polyline;
― Code:记录道路要素的临时分类代码,类型为Short(3);
; ― GB:记录道路要素的国标分类码,类型为Long(5)― RN:道路要素代码,类型为String(6); ― TCLASS: 道路要素等级,类型为String(4)。
②公路数据库中道路要素的关系模式 cn.aat{shape, R_Code, S_Code, GB } 其中:
cn.aat:公路要素中道路要素的关系(表)名称。
― Shape: 描述公路要素的几何属性,类型为Polyline; ― R_Code:公路要素代码,类型为String(14); ― S_Code: 公路路段代码,类型为String(14);
― GB:公路路段所在行政区代码,类型为String(6)。
从上面的说明中可以看出:RN和R_Code都描述公路要素的代码却具有不同的名称;而GB和GB虽然具有相同的名称却描述公路要素的不同属性特征。
3)地形数据库和公路数据库对道路要素的代码属性赋值方式不同:地形数据库对
于省道采用“道路代码”(四位)+“省区行政代码”(两位)的编码方式,而公路数据库中则采用“道路代码”(四位)+“省区行政代码”(六位)的编码方式;地形数据库中县及其以下基本道路的代码为空,而公路数据库中的县道则采用“道路代码”(四位)+“省区行政代码”(六位)的编码方式。对国道要素,地形和公路数据库中采用相同的编码方式。
表2. 地形数据库和水利数据库中要素代码冲突示例
要素名称
地形数据库中的代码
公路数据库中的代码
G106 S315110000 国 道 G106 省 道 S31511 县 道
- X210110106
3.异质空间数据库冲突类型分类
目前人们对异质数据库间冲突类型的分类方式可以概括为两类:①基于数据库抽象级别的分类方法,将冲突类型划分为数据模型冲突、模式冲突和数据冲突等三大类【Kim,1991;张斌等,1997】;②基于表达和认知的分类方法,将冲突类型划分为语法冲突和语义冲突等两大类【Bishr, 1998; Xu Zhu, 2002; 黄肇增等,2000】。这两种分类方法的实质是从不同角度对同一问题的分析和描述,因此一种方法定义的冲突类型可以反映在另一种方法定义的多种冲突类型上。
本文采用基于数据库抽象级别的分类方法对上述三种数据库间差异类型进行定义。在进行单个数据库设计时,设计者会将根据不同用户需要设计的局部模式合并成一个统一的模式,这时所讲的模型/模式冲突主要是指概念模型/模式冲突;而多个异质数据库之间的模型/模式冲突主要是指逻辑模型/模式冲突。上述三种数据库均采用地理关系(Geo-Relation)模型对空间数据加以管理,因此他们属于同构(数据模型相同)异质数据库,相互之间的冲突主要表现在模式和数据两个层次上。
3.1模式冲突
在采用相同数据模型的空间数据库间,即使两个相同的概念也可能在数据库模式上采用不同的的表达方式,主要有以下几类: 1)命名冲突:模式元素(关系,属性等)在名称标识上的差异,同物异名(Synonym)和同名异物(Homonym)是其主要表现形式。
2)描述冲突:语义相关的实体具有不同数目或不同含义的描述属性,原因是不同的设计者关心实体的不同侧面。
3)结构冲突:当同一实现对象在不同的数据库中被表达为不同的数据库元素(关系、属性、数据等)时将产生结构冲突【Park,2001】。如一个数据库中的属性值对应于另一个数据库中的属性,即数据值/属性冲突,以及类似的数据值/实体冲突和属性/实体冲突等。
4)实体标识冲突:当数据库间采用不同的实体区分方式时将产生实体标识冲突,即不同数据库所定义的主键不同。
5)属性冲突:包括属性值在数据类型、长度、取值范围等方面的冲突。
6)概括冲突:当设计者采用不同的概括层次来描述现实世界中的实体时将产生该类冲突,即不同数据库中所定义要素之间存在超类/子类的对应关系(如图1)。
3.2数据冲突
在确定数据库的模式之后,人们可以通过数据加载过程向数据库中输入数据。但由于参考资料、操作习惯等因素的影响,不同数据库中描述同一现实要素的数据也不仅相同。主要包括由:
1)表达冲突:当不同数据库中的语义相关属性采用不同的表达形式时,将产生表达冲突。
2)量纲冲突:指语义相关属性具有不同的度量单位表示的值。
3)精度冲突:指语义相关属性具有不同精度表示的数据值(如图3)。
4)分段冲突:该类冲突在空间数据库中尤为常见,它是指两个数据库中的记录之间存在1:n或n:m的对应关系【Devogele et al, 1998】(如图5)。
5)不兼容冲突:除了以上产生原因明确的冲突类型外,人们把其他语义相关属性在其值上的不一致性通称为不兼容冲突。该冲突一般是由对数据库的不一致维护造成的。
4.异质空间数据库间更新传播过程
所谓更新传播(Update Propagation)是指当一个数据集被更新后,利用其更新信息及时更新其他相关数据集的过程。空间数据库间的更新传播可以分为不同尺度间的垂直传播【Badard and Lemarie, 1999; Harrie and Hellström, 1999】和相同/相近尺度间的水平传播【Spery, 1998】。目前我国基础地理信息生产单位仍以批量方式向用户提供更新数据,即将更新后的新版数据整个提供给用户。由于上述冲突类型的存在,用户往往不能简单地利用新数据直接替换客户数据库中的旧数据,因此实现水平方向上的更新传播是一个复杂的过程,具体包括如下图所示的几个步骤:
图6. 异质空间数据库间的更新传播过程
在更新传播过程中,首先应该通过模式匹配发现两个数据集中描述空间实体同一特性的语义相关模式元素(关系,属性等),再通过对比某一对语义相关属性的值(实体匹配)找到同一现实实体在两个数据库中的对应表达并确定实体间是否存在变化。如果语义相关属性的值之间存在冲突,应将批量数据中的属性值转换为符合用户数据库要求的新值,最后根据新值对用户数据库实施更新操作(添加、删除、修改等)。
5.下一步工作
本文在详细分析1:250000地形数据库与水利,公路两个专题型数据库之间主要差异的基础上,对异质空间数据库间可能存在的冲突类型进行明确定义,为异质空间数据库间的更新传播提供了必要的前提和基础,最后指出实现异质空间数据间更新传播的基本过程。未来的研究工作主要包括:①异质数据库模式匹配方法的研究;②设计判断实体
是否发生变化的量化指标和计算方法;③语义转换算法的选择和改进;④实验平台的设计和开发。 参考文献:
[1] Badard T. and Lemarie C.,Propagating updates between geographic databases with different scales. Chapter 10 of Innovations in GIS VII: GeoComputation, Atkinson, P. and Martin, D. (Eds.), Taylor and Francis, London, 1999, 12 pages.
[2] Bishr Y., Overcoming the semantic and other barriers to GIS interoperability, International Journal of Geographic Information Systems, Vol. 12, No. 4, 1998, pp299-314.
[3] Cheng Hian Goh,Representing and Reasoning about Semantic Conflicts in Heterogeneous Information Systems,PHD Dissertation of Sloan School of Management, Jan 1997.
[4] Devogele Thomas, Parent Christine, and Spaccapietra Stefano, On spatial database integration, International Journal of Geographic Information Systems, Special Issue on System Integration, Vol. 12, No 3, 1998.
[5] Hakimpour F. and Sabine T., Using Ontologies for Resolution of Semantic Heterogeneity in GIS, 4th AGILE Conference on Geographic Information Science in Brno, April 19-21, 2001.
[6] Harrie Lars and Hellström Anna-Karin,A Case Study of Propagating Updates between Cartographic Data Sets,Proceedings of the 19th International Cartographic Conference of the ICA', Ottawa, Canada, 1999.
[7] Kashyap Vipul and Sheth Amit,Semantic and Schematic Similarities between Database Objects: A Context-based Approach,the VLDB Journal, 5(4), 1996, pp 276-304.
[8] Kim W. and Seo J., Classifying Schematic and Data Heterogeneity in Multidatabase Systems,IEEE Computer, Vol.24, No.12, December 1991, pp.12-18.
[9] Park Jinsoo, Schema Integration Methodology and Toolkit for Heterogeneous and Distributed Geographic Database, Journal of the Korea Industrial Information Systems Society, Vol6, 3 September 2001, pp.51-64.
[10] Spéry Laurent, A Framework for Update Process in GIS, Proceedings of the 3rd International Conference on GeoComputation, University of Bristol, United Kingdom,17-19 September 1998.
[11] Visser U., Stuckenschmidt H., Schlieder C., Wache H. and Timm I., Terminology Integration for the Management of distributed Information Resources, Künstliche Intelligenz, 2002.01, pp31-34.
[12] Xu Zhu, Lee Y.C., Semantic Heterogeneity of Geodata, Proceeding of Symp on Geospatial Theory, Processing and Applications, Ottawa (2002).
[13] Zhang Jianchun, Classifying approaches to semantic heterogeneity in multidatabase systems, Proceedings of the 1992 conference of the Centre for Advanced Studies on Collaborative research - Volume 2,Toronto, Ontario, Canada,1992,pp153-173.
[14] 陈 军,Voronoi动态空间数据模型,测绘出版社,北京:2002.08。
[15] 陈 军,李志林,蒋捷,基础地理数据库的持续更新问题,中国地理信息系统协会第三次代表大会暨第七届年会论文集,北京,2003.11,pp11-16。
[16] 黄肇增,黄怡然,黄杏元,GIS互操作中的异质性问题探讨,福建地理,Vol.15,No.3,2000.09,pp56-59。
[17] 商瑶玲, 王东华, 吉建培, 宋鸿运, 刘建军,全国1∶25 万地形数据库的建立与应用,测绘通报,2001(10),pp29-31。 [18] 商瑶玲,王东华,李莉,论全国1:250000数据库的建设与更新,地理信息世界,Vol.01,No.02,2003.04,pp16-20。
[19] 张斌,王国仁,郑怀远,面向对象的多数据库系统中冲突的分类及解决策略,计算机研究与发
展,Vol.34,Supp1,1997.10,pp.300-304。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- banwoyixia.com 版权所有 湘ICP备2023022004号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务