我国高校信息化经过十多年的发展,信息系统建设已经成熟,在日常业务运作中起到了关键支撑作用。然而,由于各高校信息化建设和应用水平、领导层对信息技术的理解和认识等方面存在差异,基于数据仓库的高校数据服务应用尚处于探索和起步阶段。目前,高校数据服务应用存在的主要问题有以下几方面:
一是对高校数据服务及其应用的认识和定位存在局限性。校务决策支持是高校信息化进展到较高阶段的必然需求。高校数据服务的对象应是面向包括校领导、院系所部领导、教师、学生,甚至包括学生家长和社会公众;数据服务的内容涉及教学、人事、科研、财务、设备、招生、就业等各类信息;数据服务形式包括仪表盘、数据查询、数据订购、数据可视化分析等。
二是实施基于数据仓库的高校数据服务,需要克服一系列的技术困难。经过几年的持续建设,高校各类管理信息系统相继投入使用,但存在各业务系统数据分散存储、数据类型不同、数据定义不一致、数据缺失等情况,导致在进行数据集成和构建数据仓库时技术难度较大。
三是基于数据服务的应用需求不够明确,成熟的应用比较少。目前高校信息化建设的重点还是建设支持日常事务的管理信息系统,对数据服务应用没有足够的重视程度,开展基于数据服务的应用较少,没有充分利用多年积累的历史数据,发掘其中潜在的价值。
方法与内容
数据服务系统的建设内容包括系统架构设计、数据仓库主题划分、源数据分析、数据建模、数据ETL、决策支持应用等几方面,建设过程如图1所示。
系统架构设计
高校数据服务系统架构主要包括:数据源层、操作数据层、数据处理层、基础数据层、数据集市层、数据服务层和业务用户层。通过数据处理层将源数据抽取、清洗、转换并加载到数据存储层,然后开发基于数据的多种分析服务。
1.数据源层
数据源层是数据服务系统的数据来源,类型可以是传统的关系型数据库也可以是半结构和非结构文件。高校数据服务系统涉及的数据源比较广泛,还有来自于校外的一些外部数据源。
2.操作数据层
操作数据层是数据源层的简单映射,作为基础数据层采集数据的源头,减少数据处理层采集数据时对业务系统的影响。
3.数据处理层
由于源系统业务职能和具体需求不同,在实现时会选用不同的数据库,数据结构也可能存在较大差异,从而导致数据间有较大的异构性和不一致性,所以在数据进入数据仓库前要对源数据进行预处理。通过数据处理层实现对原始数据抽取、清洗、转换、加载,消除数据间的不一致和冗余,按数据仓库模型结构重新组织数据并加载到数据仓库,形成能够对决策提供支持的多重粒度级的数据仓库标准化数据。
数据处理层采用统一的ETL调度平台,实现ETL全过程自动化调度管理,控制数据抽取、转换、加载程序及其执行顺序、相互依赖关系、群组关系、执行状况及通知。数据处理层可以通过ETL并行处理架构优化数据处理能力,随着ETL任务的增加扩展数据处理层。数据处理层通过统一的ETL监控平台对整个数据处理过程进行全面监控,包括ETL任务运行的时间、状态以及发生错误时的错误信息等。
4.基础数据层
基础数据层是数据仓库的核心部分,主要功能是完成数据集成、合理存储数据、实现数据的标准化。基础数据层一般采用三范式方式建立的关系型数据模型,通过主题来存储和管理各类业务数据,并且保留历史。
5.数据集市层
基础数据层以原子粒度来存储数据,数据集市层根据具体应用需求对基础数据层中的数据进行适当提炼、汇总和重新组织,形成面向部门级的业务和特定主题的汇总数据,实现了访问方式的多样化和信息存取的透明化。数据集市层的数据来自基础数据层,可以确保其数据质量和数据的一致性。
6.数据服务层
数据服务层构成高校数据服务应用的门户和分析平台。借助于数据仓库提供的即时查询、预定义报表、多维分析和数据挖掘等功能,数据服务层实现了面向领导的决策支持服务、面向管理人员的数据查询服务、面向大众的数据公开服务以及面向数据应用系统的接口输出服务。
7.业务用户层
业务用户层是数据服务与用户之间的接口,该层提供用户对数据仓库数据的浏览、请求、存取等服务,同时还包括对用户访问的认证、控制、权限管理。
主题规划
数据仓库主题规划的本质是对数据仓库涉及的所有业务数据进行抽象并合理分类,它是数据仓库概念模型设计阶段的主要产物,每个主题都对应一个宏观分析领域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。通过分析高校业务状况,结合数据特点将高校数据仓库内容规划为公共、机构、当事人、教学、科研、资产、财务、事件八大主题,主题间的关系,如图2所示。
当事人主题主要指各类人员数据,人事系统的各类教职员工、教学系统的各类学生都属于当事人主题。当事人主题是数据仓库中最基础、最核心的内容,所有的业务活动都是围绕各类人员展开,与其他主题产生紧密联系。机构主题指学校的各类组织架构,如校区、部门、研究机构、党团组织等。公共主题存放各业务活动中的字典代码,国标、校标、行标及业务字典表都属于该主题。科研主题存放科研业务活动相关实体,包括科研项目、科研成果和科研考核等内容。教学主题存放教学活动相关实体,包括培养计划、班级信息、课程、教学活动、排课、选课、排考、考试成绩、学生毕业论文、评教、学位毕业审核等相关内容。财务主题主要包括学校各类经费预算、收入、支出数据。资产主题存放学校各类资产数据,包括楼宇、房间、家具、设备、实验仪器等各类学校资产。
事件主题主要指各业务活动的流水表,如人事系统薪资发放记录、绩效考核活动、专业技术职务聘任活动、奖学金申报活动、科研项目申报活动等。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。