中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 支撑平台 > 数据共享
对外经贸大学:高校数据整合实施策略
http://www.edu.cn   2014-06-03 中国教育网络 作者:方丹丹 王义 韩芹 韩霖

字体选择:【大】 【中】 【小】

  数据整合关键技术

  数据整合包括数据清洗和数据同步两个主要方面,其中数据清洗可以根据情况在数据中心端或者业务系统端进行,数据同步实现了业务系统与数据中心数据的获取和推送,两者保证了数据的标准性、可用性、完整性和时效性。

  数据清洗

  在集成多个数据源的过程中,首先要消解模式冲突、相似重复记录等问题,解决这些问题的过程称为数据清洗过程。数据清洗(Data Cleaning,Data Dleansing 或者Data Scrubbing) 的目的是检测数据中存在的错误和不一致,剔除或者改正它们,提高数据的质量。

  不完整的、错误的和重复的数据都是数据清洗的对象。其中不完整数据是应有信息的缺失。错误数据的产生可能有多种原因,例如:业务系统不够完善,在用户输入后不对数据判断而直接存入数据库,以及数据库存在设计缺陷,对特定数据的存储类型不正确等。重复数据是指对于同一实体,存在多条不同记录,由于这些数据库差异, 导致不能正确识别该数据项。

  数据清洗的重点是要保证数据的完整性和标准性,所以在算法的设计和使用过程中,对于数据的识别和处理尤为重要,不仅要有识别和处理,还要具有可查可回溯可修复的附加算法和功能模块,便于在使用中进行微调。

  数据清洗方法分类如图1 所示。

  数据同步

  在相对独立的信息服务和管理系统中,以及不同的数据库系统中,有不少数据是相关联的甚至是相同的实体存在不同的记录。为了给数据中心提供可靠的数据,在数据清洗的同时,数据同步也是非常重要的部分。稳定、快速、安全的数据同步策略,能够增强数据中心的可扩展性,提高数据中心与各个业务系统数据同步的准确率、安全性和效率。

  有多种主流工具可为数据同步提供支持。Oracle 的同步产品ODI 和Golden Gate工具,支持所有主流数据库操作系统的一对多、多对一、一对一场景,在性能方面也非常卓越,在效率上也能实现亚秒级同步。DB2 对于异构复制采用CCD(Consistent Change Data)来实现,其强项是跨系统平台的兼容性以及模式转换,不足之处是CCD 表创建和维护比较难,在处理压力大时性能下降。SQL Server 的出版者- 预订者方案也能支持一对一、一对多和多对一同步,但是实现起来比较复杂,且跨平台能力差,受Windows 系统限制。

  数据同步主要考虑的是性能,同步策略的设计要针对业务量的变化,使其性能随着业务量的增加不会迅速降低,尤其是在处理多个业务系统与中心库的大量数据时,单位同步过程用时要在指定标准时间范围内。在捕获同步数据的过程中,由于不同数据库中捕获方式各不相同,对其各自单独设计捕获方法势必影响系统的通用性,影响数据同步的性能,所以要充分考虑捕获方式的系统通用性。

  3. 清洗和同步的结合

  数据清洗和数据同步的结合是在数据整合过程中的必然趋势。由于清洗过后的干净数据依然不是按照相同的标准来记录,所以在不同的业务系统与数据中心进行同步时,会产生统一字段的不一致,这种冲突会导致数据中心的库中数据变为“脏数据”,此时则需要进行再次清洗,而更好的办法则是将数据清洗方法应用数据同步过程中,对不同的业务系统定制特殊的数据清洗和数据同步组合。

  对于包含有差异数据的各个业务系统数据库,其数据在到达数据中心数据库是已经变为符合标准的“干净数据”,对于新加入的业务系统,既可以直接按照数据标准来建库,也可以针对建库情况定制数据清洗同步策略。如此,整个数据整合过程变得清晰可控,易于进行调整和扩展。

  上述数据整合架构设计模型,通过建设数据标准、集成中心数据库平台、公共数据库、数据仓库、数据综合应用,来实现各业务系统的数据整合。经过集成平台的处理,各业务系统的数据进入到公共数据库,在公共数据库的基础上,开发各类数据应用,通过历史数据库和数据仓库的

  建设,实现历史数据的归档、备份,并利用积累的数据进行检索、统计、分析、预测。该模型可以实现高校各信息系统的数据整合,推进高校教学和管理工作的信息化、规范化和科学化,提高高校数字化校园建设的水平。

  (作者单位为对外经贸大学)

 

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com