最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
|
做好数据质量保障 数据中心的数据加工存储层主要由数据仓库(DW) 和数据清洗转换装载(ETL)组成。应首先建立采集中心库,将各个业务系统中的数据按照指标体系中的要求集中到中心数据库中,然后再进一步抽到分析主题库,为部门提供数据分析、领导决策提供高质量的数据来源,因此数据质量成为关键问题。 在高校数据中心的实际环境当中,存在许多数据质量问题: 1. 相对于新的业务应用系统来说,老业务数据不完整,导致系统升级和移植后,数据质量不能达到新应用系统的要求; 2. 对于历史数据的转换,基本依赖于系统上线时的数据转换,而不是将历史数据的转换和修正作为一个长期的过程,在今后的业务操作中逐步补入; 3. 系统校验控制不严谨或BUG 导致的数据错误; 4. 管理员为保证业务的运行,在取得 授权的情况下,直接修改数据库后台数据,由于对应用系统的熟悉程度的差异,导致出现数据不一致; 5. 升级和移植过程中数据转换或迁移操作错误,导致的数据错误。 提高数据质量的方案主要有两种: 1. 手工数据补入方式。合理的方案是提供数据补录功能,使分散的信息数据间建立起应有的联系。这种方式要通过软件编程进行,成本低且易实现。 2. 在ETL 过程当中采用“数据清洗”工具。可以用人工来手动整理数据库,也可以利用多种自动数据整理工具来完成,这些工具能够自动检验以及填补损失的数据、消除重复数据以及确定、匹配相关信息,许多工具如今还增加了实时功能,能够自动检查、整理数据流。这种方式功能强大,但投入成本也很大。 除了采取上述办法去提高数据质量外,要更主动地去防止数据错误,也就是应该在初始获取数据时就进行数据质量的控制,换句话说,除了手工补录和在ETL过程中采用“数据清洗”工具外,也可以在用户接触点加入一些输入规范校验功能。 基于统一数据标准的数据交换平台在信息资源整合中占据重要地位,负责接入各种服务资源,通过采用统一服务接口使得各种服务或应用与服务之间可以相互方便访问,以星形结构替代了原来各服务之间的点对点结构,优化系统连接架构,降低系统集成复杂度。数据交换平台由连通服务管理模块、可视化流程管理模块和服务库管理模块构成。在信息资源整合工程中起到业务协同的整合作用,以及全部服务资源和软件构件资源的注册和集中管理。
|
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com