中国教育和科研计算机网
EDU首页 |  中国教育 |   科研发展 |   教育信息化 |   CERNET  |   教育在线 |   教育舆情 |   视频课堂
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 项目 数据 招标 企业 产品 CIO 技术 校园信息化 教育装备 下一代互联网

中国教育网 > 教育信息化 技术论坛入口    用户名
密 码 搜 索 
您现在的位置: EDU首页 > 教育信息化 > 校园信息化
大数据在高校中的应用研究
http://www.edu.cn   2014-02-10 中国教育网络 作者:孙其伟 陆春

字体选择:【大】 【中】 【小】

  高校大数据及其处理架构

  高校中汇聚着大量的信息,从学生角度来看,包括联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第二课堂信息;从教师角度来看,包含教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;从管理者的角度来看,包含学校的资产信息、师资信息、招生就业信息等。同时随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信等社交信息,各类搜索点击记录信息等。上述信息存在着数据量大、结构复杂、产生频率快的特点。这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。

  大数据的处理流程与一般数据的处理过程类似,可以定义为在合适工具的辅助下对广泛异构的数据源进行抽取和集成,将结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成、数据分析和数据展示。

  数据抽取与集成

  大数据的数据来源非常广泛,既包括传统的关系型数据库,也包括XML 等半结构化数据,以及以视频、音频、文本和其他形式存在的非结构化数据。数据抽取和集成要解决的主要问题就是收集各种碎片化的数据,对数据进行清洗,保证数据质量,同时根据时间演进不断更新数据模式,确定数据实体及其之间的关系,最终将数据按照统一的格式进行存储,以便提供给上层用来进行数据分析。

  目前高校已经基本建立了完备的管理信息系统、学习管理系统等,在统一数据中心中积累了大量的结构化数据;同时各类系统中还散布着大量的半结构化和非结构化数据。半结构化和非结构化的数据经过一定处理后,可以转化为更容易分析使用的结构化数据。

  数据分析

  经过抽取和集成得到的数据, 需要经过分析挖掘其潜在的价值。传统的数据挖掘、机器学习、统计分析等方法仍然可以用来对数据进行分析,只是需要根据大数据的特征进行调整。首先,为了实现对海量数据的分析,需要依Map/Reduce 模型,将数据拆分处理,然后再将结果汇总,一个完整的分析可能会经过多层类似的处理过程;其次,大数据的应用通常具有实时性的特点,数据的价值会随着时间的流逝而递减,因此分析方法需要平衡处理的效率和准确率;最后,大数据一般构建在云计算平台之上,分析方法需要考虑与云计算平台的集成或做为一种云服务。

  数据展示

  数据分析得到的分析结果,需要以直观可理解的方式呈献给最终用户,在大数据时代,数据分析产生的结果有可能也是非常大量的,且结果之间的关联关系复杂、数据维度更多,数据可视化技术通过更加适合人类思维的图形化的方式展示数据分析结果,已经被证明是展示数据分析结果非常有效的方法。常见的可视化方法有:多维叠加式数据可视化、数据在空间、时间坐标中的变化和对比等,当然要将枯燥的信息转换为美丽的、令人印象深刻的图形,需要较高的技术素养和艺术素养。

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备05078770,京网文[2014]2106-306号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com