数据集成技术研究 龚建华 (国防信息学院 武汉摘430010) 要 通过数据集成可以在更大范围内充分发挥数据的价值,本文首先分析了数据集成的需求,然后介绍了两种数据集成的基 本技术,最后从时效性和成熟度两个方面对比分析了数据集成技术,并讨论了数据源安全控制问题。 关键词 数据集成 中介器 封装器 抽取转换加载 中图分类号TP392 文献标识码A 文章编号120423—6115 Research on Data Integration Technology Gong Jianhua (PLA National Defense of Information Academy Wuhan 430010) Abstract The Value of the data will be exploited fully in more fields through data integration.At ifrst,requirement of data integration is analysed in this paper.And then,two methods of data integration are introduced.At last,these methods are comparative analysised from timeliness and maturity two aspects,and the security control of data source is also dis— cussed. Keywords Data integration Mediator Wrapper Extract transform load 数据集成是数据组织的重要方法,是实现数据共享的重要 1、MediatorANrapper数据集成技术 途径。通过数据集成,可以将多个分散的、异构的数据源统一起 来,给用户提供统一的数据访问接口,简化用户对数据的访问。 一各个数据源的异构性是客观存在的,Mediator/Wrapper(中 介器/包装器)方法则是分别对各个异构数据源进行包装来消 除数据源的异构性,同时提供一个虚拟的用户视图,并不真正存 、数据集成需求 不必 网络技术的发展大大拓展了人们的视野和空问,用户不再 储任何实际数据,用户针对虚拟的用户视图提出查询请求,模式和访问方法。如图1所示,中介器能 仅局限于使用自己存储和管理的数据,而是通过网络获取更加 知道各数据源的位置、广泛的数据。但是,对于跨领域、跨部门的数据,用户必须逐个连 接到各个数据库,得到数据后再进行汇总和甄选,这种数据获取 方法会面临以下突出问题: 十O 用户 (1)用户不明确数据存放的位置; (2)用户不了解各类数据库访问的方法; / \ (3)用户不具备直接访问数据库的权限; (4)用户不熟悉各数据库的数据结构; (5)用户无精力去汇总和甄选繁杂的数据。 针对用户访问和应用数据面临的困难,应当有一个中间系 统去替用户来解决困难,该系统接收用户的查询请求,然后将处 理后的查询结果返回给用户。使用过程中,用户不需要了解各个 数据库的位置、访问方法、权限、数据结构等细节问题,也不需要 进行繁琐的数据汇总和甄选,它们都交给中间系统去完成,这个 中间系统就是数据集成系统。 二、数据集成技术 数据集成技术主要有两种类型,即Mediator/Wrapper数据 集成技术和基于数据复制的数据集成技术。 图1 MediatorANrapper数据集成示意图 ’52。 办公自动化杂志 够处理用户的查询请求,将查询请求分发给各个包装器,并处理 据就会有些不是最新数据,因此其时效性差一些,不过,目前 和融合各个包装器传递过来的结果数据。每个包装器对一个数 人们正在将CDC(Change Data Capture,变化数据捕获)技术融 弥补基于数据复制的数据集成技术的时效性不 据源进行封装,为中介器提供统一的查询访问接口,并将中介器 入ETL技术中, 处理过的查询翻译成数据源可以处理的查询操作,然后将数据 足的问题。源的查询结果返回给中介器。 从技术成熟度讲。基于Mediatorwr/apper数据集成技术的 Mediator/Wrapper集成方法也叫虚拟视图方法,用户虽然从 工具比较少,目前比较热门的工具是OGSA—DAI(Open Grid vices Architecture—Data Access and Integration),该工具配置完 数据集成系统中得到了数据,但是数据集成系统中并没有存放 Ser数据,数据依然存放各数据源中。 2、基于数据复制的数据集成技术 成后,用户不需要了解各个数据源的技术细节,就能够从各个数 据源中查询得到数据,但是从最终用户的角度看,各个数据源仍 没有统一的数据库模式,查询得到的分散数据的组 在基于数据复制的数据集成系统中,设置了一个综合数据 然是分散的,对用户的素质要求较高,工具使用起 库(有些资料中称之为数据仓库),在进行数据集成时,将各个数 合仍然由用户自己来完成,atorwr/apper数据集成技 据源的数据复制到综合数据库中,如图2所示。由于各个数据源 来仍然不是很方便,归根结底是Medi基于数据复制的数据集成技 之间、各数据源与综合数据库之间存在异构性,数据复制通常要 术目前还不是很成熟。相比较而言,BM的DataStage,Oracle的 经历数据抽取、转换和加载(Extract、Transform、IJoad,ETL)三个 术的工具比较多而且很成熟,比如Iacle Data Integrator等,在数据源向综合数据库进行数据转换 步骤才能完成。用户访问数据集成系统时,不再需要访问各数据 Or源,而是从综合数据库中查询并得到数据。 的环节,这些工具都采用了图形化操作界面,数据转换形象直 观,配置方便,最终用户直接查询综合数据库,使用简单,因此应 用比较广泛。 2、数据源安全控制分析 用户 数据集成需要直接对数据源数据库进行操作,要求各数据 源必须面向数据集成系统开放数据库访问权限和公开数据结 构,这种做法对数据源的安全性带来极大的威胁,导致一些部门 或组织对参与数据集成产生抵触情绪。改进的办法是将数据源 的数据库称之为工作数据库,在工作数据库之外增加一个前置 数据库,前置数据库的内容来自于工作数据库,并且前置数据库 是公开的,可以用于数据集成,即使前置数据库遭到网络的恶意 或无意攻击,也不会影响到数据源工作数据库的安全。解决了数 据源的安全问题,各组织、各部门才有可能将自己的数据公开出 来用于数据集成,数据的价值才有能充分展示其重要的价值。 设置前置数据库的办法可以提高数据源工作数据库的安全 性,但是前置数据库与工作数据库之间的数据一致性问题又凸 显出来,需要进一步采取数据同步措施,确保前置数据库的内容 与工作数据库的内容保持一致。 图2基于数据复制的数据集成示意图 三、数据集成应用分析 1、数据集成技术应用对比 参考文献 上述两种数据集成技术各有优缺点,下面从数据时效性和 技术成熟度两个方面对数据集成技术进行比较。 [1]刘志强.数据集成技术及其应用研究[D】.哈尔滨工程大 学,2011. 从数据时效性讲。在Mediator/Wrapper数据集成技术中,数 据集成系统中并没有真正存储数据,用户查询得到的数据直接 [2]苌城.基于ETL的数据集成过程模型[D】.浙江大学,2010. [3】刘三满.基于ETL工具的数据集成和交换研究『J】.电脑开 来自于各个数据源,因此用户查询得到的数据始终是最新的,因 发与应用,201 1.10. 此其时效性比较好。反过来,基于数据复制的数据集成技术中, 各数据源的数据经过ETL过程加载到综合数据库中,由于ETL 过程是间歇性的,在两次ETL的间隔时问内,某些数据源的数 作者简介 据可能已经发生更新,导致综合数据库中的数据与各数据源 龚建华(1973~),男,硕_I.研究生学历,国防信息学院讲师, 的数据存在部分不一致,用户从综合数据库中查询得到的数 主要研究方向:信息系统与数据工程。 办公自动化杂志‘53’