最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
|
数据整合关键技术 数据整合包括数据清洗和数据同步两个主要方面,其中数据清洗可以根据情况在数据中心端或者业务系统端进行,数据同步实现了业务系统与数据中心数据的获取和推送,两者保证了数据的标准性、可用性、完整性和时效性。 数据清洗 在集成多个数据源的过程中,首先要消解模式冲突、相似重复记录等问题,解决这些问题的过程称为数据清洗过程。数据清洗(Data Cleaning,Data Dleansing 或者Data Scrubbing) 的目的是检测数据中存在的错误和不一致,剔除或者改正它们,提高数据的质量。 不完整的、错误的和重复的数据都是数据清洗的对象。其中不完整数据是应有信息的缺失。错误数据的产生可能有多种原因,例如:业务系统不够完善,在用户输入后不对数据判断而直接存入数据库,以及数据库存在设计缺陷,对特定数据的存储类型不正确等。重复数据是指对于同一实体,存在多条不同记录,由于这些数据库差异, 导致不能正确识别该数据项。 数据清洗的重点是要保证数据的完整性和标准性,所以在算法的设计和使用过程中,对于数据的识别和处理尤为重要,不仅要有识别和处理,还要具有可查可回溯可修复的附加算法和功能模块,便于在使用中进行微调。 数据清洗方法分类如图1 所示。
数据同步 在相对独立的信息服务和管理系统中,以及不同的数据库系统中,有不少数据是相关联的甚至是相同的实体存在不同的记录。为了给数据中心提供可靠的数据,在数据清洗的同时,数据同步也是非常重要的部分。稳定、快速、安全的数据同步策略,能够增强数据中心的可扩展性,提高数据中心与各个业务系统数据同步的准确率、安全性和效率。 有多种主流工具可为数据同步提供支持。Oracle 的同步产品ODI 和Golden Gate工具,支持所有主流数据库操作系统的一对多、多对一、一对一场景,在性能方面也非常卓越,在效率上也能实现亚秒级同步。DB2 对于异构复制采用CCD(Consistent Change Data)来实现,其强项是跨系统平台的兼容性以及模式转换,不足之处是CCD 表创建和维护比较难,在处理压力大时性能下降。SQL Server 的出版者- 预订者方案也能支持一对一、一对多和多对一同步,但是实现起来比较复杂,且跨平台能力差,受Windows 系统限制。 数据同步主要考虑的是性能,同步策略的设计要针对业务量的变化,使其性能随着业务量的增加不会迅速降低,尤其是在处理多个业务系统与中心库的大量数据时,单位同步过程用时要在指定标准时间范围内。在捕获同步数据的过程中,由于不同数据库中捕获方式各不相同,对其各自单独设计捕获方法势必影响系统的通用性,影响数据同步的性能,所以要充分考虑捕获方式的系统通用性。 3. 清洗和同步的结合 数据清洗和数据同步的结合是在数据整合过程中的必然趋势。由于清洗过后的干净数据依然不是按照相同的标准来记录,所以在不同的业务系统与数据中心进行同步时,会产生统一字段的不一致,这种冲突会导致数据中心的库中数据变为“脏数据”,此时则需要进行再次清洗,而更好的办法则是将数据清洗方法应用数据同步过程中,对不同的业务系统定制特殊的数据清洗和数据同步组合。 对于包含有差异数据的各个业务系统数据库,其数据在到达数据中心数据库是已经变为符合标准的“干净数据”,对于新加入的业务系统,既可以直接按照数据标准来建库,也可以针对建库情况定制数据清洗同步策略。如此,整个数据整合过程变得清晰可控,易于进行调整和扩展。 上述数据整合架构设计模型,通过建设数据标准、集成中心数据库平台、公共数据库、数据仓库、数据综合应用,来实现各业务系统的数据整合。经过集成平台的处理,各业务系统的数据进入到公共数据库,在公共数据库的基础上,开发各类数据应用,通过历史数据库和数据仓库的 建设,实现历史数据的归档、备份,并利用积累的数据进行检索、统计、分析、预测。该模型可以实现高校各信息系统的数据整合,推进高校教学和管理工作的信息化、规范化和科学化,提高高校数字化校园建设的水平。 (作者单位为对外经贸大学)
|
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com