最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
|
对比国内外教育考试数据资源应用现状,能够发现国内教育考试机构由于缺乏系统研究以及相应的基础建设,这些数据并没有及时地转化为有价值的信息,在一定程度上造成了极大的资源浪费。数据量的自然积累和数据有效应用之间存在着差距,如同面对宝库却无门可入一样。跨越这个台阶是教育考试管理机构信息化建设的重要发展课题。 2006年北京教育考试院向北京市科委申请《北京教育考试数据资源系统》课题。通过课题的研究及建设,开创性地使教育考试数据的综合应用成为现实,对“教育考试数据资源系统”的总体架构以及技术难点做解析,同时结合实例介绍了数据挖掘应用研究。以期对各省教育考试同行的数据资源系统建设提供参考。 体系结构设计 数据资源子系统 基础数据资源层是数据资源子系统的基础数据层,它存储的数据是上面两层数据的来源。基础数据层的数据是教育考试资源系统进行处理和利用的数据全集,根据教育数据的来源特点,基础数据源层包括结构化数据和非结构化数据。 第一,结构化数据来自各个业务数据库,这些数据库是随着各类考试业务管理信息系统的构建分别建立起来的,具有逻辑上和物理上的独立性。 无论是结构化数据,还是非结构化数据都经过了多年的积累,因此包含了丰富的历史信息。 数据资源层是对基础数据源中的数据进行整合后生成的,其中的数据以关系数据表的形式组织,包括考生基本信息、学校基本信息、考试基本信息、科目成绩信息、试题类信息、文档类信息等等。数据资源层是生成数据仓库的基础,也是进行联机查询、统计、报表的基础。 数据资源库中的数据存在一定的关联性,要对这种关联性进行整理固化,形成文档,而不仅仅是存在于数据管理员大脑中的知识。这些知识可以运用在系统的综合查询、统计、以及数据挖掘中。 数据仓库层是数据资源库中的数据经过抽取、转换、装载等过程,形成的面向教育考试挖掘主题的数据集合。数据仓库层中的数据通常以星型模型或雪花模型的形式进行组织。本系统中,结合教育考试数据特点和教育考试数据挖掘主题,主要采用雪花模型。 数据处理子系统 数据资源库生成平台的功能是将基础数据源中的数据根据设定的转换规则将数据转换后导入数据资源库。对于结构化和非结构化数据的操作有所不同。由于基础数据源的数据来源于多种类型的数据源,针对结构化数据和非结构化数据采用不同的处理方式。基础数据源的结构化数据也是来自不同的类型的数据源,这些数据源的数据类型和数据结构是不统一的,因此数据资源库平台设计了一系列的数据转换构件,这些数据转换构件能够把各种类型的数据源数据转换为标准和规范的数据格式,存入数据资源库。并且在转换处理过程中提供了数据的校验功能,从而保证数据在转换过程中的一致性。 考虑到教育业务数据的复杂性和多样性,除了利用数据转换构件进行数据转化,还提供了人工数据调整功能。从而保证数据资源系统的方便性与实用性。而对于非结构化数据的数据处理是根据不同类型的非结构数据源的特点,制定数据转换规则,使得这些不同类型的非结构化数据转换为标准格式的非结构数据,然后采取对象封装、关键字检索等处理方法将非结构化数据转换为结构化数据通过一系列的数据转换处理,使得非结构化数据进入数据资源库。 数据挖掘的主要工作流程包括:确定挖掘主题、生成数据仓库、建立挖掘模型。确定挖掘主题是核心,只有主题明确,才能建立高效、实用的数据仓库和挖掘模型。数据挖掘是数据仓库之上的高层应用。挖掘主题的确定、数据仓库的开发随着业务发展而不断变化与更新,提出问题—>确定挖掘主题—>得出挖掘结果是一个循环往复的过程,这保证了系统的不断扩充与完善。 数据仓库结构设计模块提供数据仓库结构设计工具,其中的自动转换功能实现资源库与数据仓库结构的自动映射,手动调整功能则保证数据仓库构建过程的灵活性。仓库数据ETL流程模块实现数据的抽取、转换与装载,自动和手动ETL过程将保证数据导入的方便性和实用性。当前数据仓库的数据量相对较小,数据间关联性强,针对数据仓库的数据进行新的一致性验证效果更好,同时可以保证下一步数据挖掘的质量。 数据挖掘是教育考试数据资源系统中的重要内容,建立面向挖掘主题的挖掘模型和选择算法之后,将数据仓库中的数据注入模型运行。模型运行结果以标准化形式输出,便于将来利用数据可视化平台进行展示。 数据处理工具集是面向数据资源库的,提供了多种数据查询,统计分析的方法。数据可视化平台针对不同挖掘主题和挖掘结果提供图、表等多种直观展示方式,从而使挖掘结果得到更好的理解和应用。在数据可视化平台之上,最终形成面向不同类型用户的应用系统。 系统管理与维护子系统 体系结构及特点 体系结构采用分层架构 构架同时将数据资源库与数据仓库、一般查询统计分析与数据挖掘分析分离,充分考虑了存储与应用实现的差异,建立了可灵活定制的架构,便于系统循序渐进地完善。 数据组织中采用雪花模型设计 与星型模型比较,雪花模型也能够在数据库数据之间建立简明清晰的关系,同 时,通过建立多级维度表,还具有如下优点:第一,降低数据仓库冗余度,保证数据仓库中数据的一致性,减少数据仓库的数据量;第二,方便实现基于灵活粒度的数据挖掘。在结构设计过程中,结合教育考试的实际情况,设计采用雪花模型,实现不同维度、不同粒度的数据挖掘。 采用“标准分级、管理授权”策略 标准管理工具将公共标准体系和业务标准体系进行了统一的管理并且实现了标准的权限管理。只有拥有权限的拥护,才能够管理相应的标准。不仅如此,当满足一定的转换条件,公共体系标准和业务体系标准可以进行相互转化。这样使得资源标准在建设中能够实现“动态扩展、配置管理、分类授权、灵活引用。 跨平台的数据迁移工具 确定跨平台数据资源迁移工具的各项业务需求和技术要求,其中包括跨平台支持能力、异构数据源整合能力、迁移规则管理、迁移方案复制、迁移过程监控、迁移结果审计等多项功能要求和技术指标。 对非结构化数据进行整合 在对非结构化数据进行整合时主要采取两种方式:一是通过将已有的非结构化数据进行对象封装,并对该对象的各项属性参数进行描述,从而形成具有结构化属性的半结构化数据,通过这种方式可以实现对非结构化数据的结构化使用要求;另外是将非结构化数据在整合进入非结构化资源库的过程中,对其进行关键字搜索,并将搜索结果存储在统一的非结构化数据的关键字描述信息表中,便于日后的查询和检索。 成果及经验分享 1.结合北京教育考试院的需求及数据特点,开创性的研究建立了2个方面的数据转换标准: 非结构化数据的标准处理:教育考试的数据信息中存在大量文档型、试题型的数据类型。系统首次研究建立了实用的非结构化数据的转换标准,从技术上充分实现了不同类型、不同科目、不同地区、不同年份试卷的调用、查阅、组卷、分析等应用功能。 2.系统首次应用数据资源,研究改造了适合教育考试实际的数据算法、数据挖掘功能,并建立了数据挖掘系统原型。首次对“高考流失生去向分析”等实用性应用课题进行了数据挖掘分析。为今后教育决策分析开辟了应用途径。 3.系统的整体研究、开发和实施,体现了低成本、高效益。充分应用XML技术、RDBMS技术以及FORM建模技术的结合,综合应用数据指标技术、数据表单技术、数据智能分析技术、数据服务技术、数据信息技术等,为多方面的实际应用提供了快捷、便利、灵活的操作平台。 北京教育考试数据资源系统的建设,从根本上解决了海量历史数据的采集、存储、管理和应用的重大难题,使教育考试管理从单纯完成招生考试的业务活动,向科学决策、科学管理迈进一个台阶;使得原先潜在的无法涉及的决策元素成为可供实际应用的科学依据;使得原先局限于专业管理部门独享的数据资源成为可供社会需求应用的共同资源。数据资源系统的广泛应用将在各个方面体现出它的社会效益和经济效益。 |
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com