1、数据集成方法的选择
数据集成又可称为信息集成。用于解决数据的互通问题。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起。使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率。透明的方式是指用户无需关心如何实现对异构数据源数据的访问。只关心以何种方式访问何种数据。
数据集成的难点主要集中在三个方面:数据源的异构性、分布性和自治性。12I异构性:被集成的数据源通常是独立开发的,在数据语义、相同语义数据的表达形式、数据源的使用环境上存在着差异。分布性:而且数据源是异地分布的。依赖网络传输数据。存在网络传输的性能和安全性等问题。自治性:各个数据源有很强的自治性。它们可以在不通知集成系统的前提下改变自身的结构和数据。
典型的数据集成方法有模式集成法与数据复制法。这两种数据集成法各有优缺点与适用范围。模式集成方法为用户提供了全局数据视图及统一的访问接口。透明度高。但该方法并没实现数据源间的数据交互。用户使用时经常需要访问多个数据源。因此网络依赖性强。执行效率也相对较低。数据复制方法在用户使用某个数据源之前将用户可能用到的其他数据源的数据预先复制过来。用户使用时只需访问某个数据源或少量的几个数据源。这会大大提高系统处理用户请求的效率。但很难保障数据源之间数据的实时一致性。模式集成方法适用于被集成的系统规模大、数据更新频繁、数据实时一致性要求高的情况。数据复制则适用于数据源相对稳定、用户查询模式已知或有限的情况。
如果采用模式集成方式的联邦数据库系统。每个系统都要实现一个与虚拟共享库的接口。要对原系统做相应的修改。同样对于中间件的模式集成需要建立一个全局的模式。需要花费大量的时间。更为重要的是目前现阶段建立数据中心主要目的不是为了数据的查询。而是为了共享数据的收集和交换。所以。单纯的模式集成法不能完全适应数字化校园建设需求的方案。因此。在经过详细的需求调研、分析与综合考虑各种因素后我们选择数据复制法。建立数据中心数据仓库。为今后的应用需求提供实现空间。而对于一些本身业务具有封闭性的系统则使用统一的数据封装格式如XML。通过通讯前置机来实现数据信息的共享。
2、信息交换平台框架
信息交换平台需要提供一个集成平台包括的所有数据集成的功能:基于数据的、基于事件的和基于服务的。
设计要点:
(1)保持现有业务系统基本不变。在各业务系统与数据中心之间做接口。完成对接。实现抽取与推送数据的目的。节约成本。
(2)根据实际应用的需求,数据交换采用数据库级交换与应用级数据交换相结合的方式来应对不同的数据交换要求。数据库级数据交换比较适合于数据集实时要求高数据量不大的数据。交换。如学籍异动、成绩修改等类型数据交换提供数据的业务系统通过CDC(ChangeDataCapture)动态数据捕获机制。每次只捕获、集成有变化部分的数据。从而减轻数据中心平台网络传输及系统处理的负担。应用级数据交换比较适合于数据实时性要求不是很高但数据量比较大的数据交换。
(3)坚持信息共享这一基本原则,以师、生角色为主线。将分散在各部门业务系统的基础数据集中到数据中心统一存放,提供跨部门立体式的人事、教学、科研、公共资产等综合数据,从而为教工、学生提供全方位的信息服务。
(4)保证中心数据库数据的权威性。及时更新与同步各业务系统数据。
(5)虽然目前现阶段建立数据中心的主要目的不是为了数据查询,而是为了共享数据的收集和交换。但也需要提供良好的数据环境。为将来更高层次的决策和应用提供数据准备。
(6)建立统一的信息标准,保证信息的交流和共享。