最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
|
基于条件独立性的数据分析 为了提高有问题学生认定的准确率与有效性,针对一卡通的相关数据流进行以下几个方面的分析: 1.根据学生入学时填写的各种记录表初步了解其基本情况。 2.通过分析长期的学生的金融消费数据以及楼宇身份认证等数据计算月平均开销、出入教师或图书馆的频率、早锻炼的积极性等,给出认证偏低区间的实证结果。这可用来发现性格内向但不愿向师长和同学说明情况的学生。 3.根据校内各种开放设施的划卡消费及认证情况记录计算月平均开销及各种活动的出勤情况。对于月开销较大或出勤情况反常的学生应深入了解情况,杜绝个别学生思想临时出现紧急波动的情况。 4.根据体检情况、就医情况的医疗记录关注有问题学生的健康状况。对于健康状况较差的有问题学生应加大援助的力度。 5.根据上机情况、图书馆借阅情况及考试成绩了解有问题学生的学习努力程度。 本文针对上述的第二条中的数据进行重点的数据挖掘,同时针对初步结果,再结合第一、三、四、五条进行聚类分析,试图寻找到消费和认证行为的某些相关性及条件独立性,从而有助于学校及早发现思想有问题的学生,为教师进行思想有问题学生决策提供更准确的数据支持。 一卡通信息的数据挖掘 1.数据准备:由于一卡通的流水数据中有许多庞大的价值较低的数据,因此,现有的一卡通流水数据必须经过数据的预处理后才能变成挖掘的对象。 (1)将卡流水交易数据库分割成小的数据表。我们将校园卡流水交易数据库分成若干张细表,每个表为一个月的数据,少则几万(假期),多则上百万条记录。 (2)通过卡号将存在于卡流水交易数据库和用户资料表的数据搜索出来,为数据挖掘提供数据源。 (3)计算属性:由于集成几个数据库而得到的数据依然反映的是每次刷卡交易的记录,实际情况是消费或认证可能在某处的一个或多个POS机上完成。因此需根据刷卡的时间进行分段求和,我们把一天分成三个时间段(0∶00~10∶00,10∶00~15∶00,15∶00~24∶00),在这三个时间段内的刷卡记录分别归为早、中、晚三个阶段,因此对于每一个卡号用户必须分别按这三个时段统计出三个阶段的刷卡频率。 本地学生周末通常不在学校,因此需要特殊处理;考试期间由于学业繁重,早锻炼的频率也将正常下降,此时也需要特殊处理。但为了分析结果的准确性,不能清洗任何刷卡记录。 2.建立数据仓库 采用Microsoft Analysis Services建立数据仓库:首先新建数据仓库DSS,数据源自于上述经过预处理的一卡通数据库;然后建立多维数据集,将所有数据按月划分为多个数据表,每个数据表建立一个多维数据集,选择刷卡金额或认证次数为度量值,通过POS机具信息表、账户信息表、认证信息表建立维度表。 3.知识分析 根据一个月的情况,计算出每个学生的每月学习日的刷卡次数(X)。 这里我们定义以下几个指标:每月学习日正餐消费次数(X)、每月学习日正餐最低消费次数参考值(M)、学习日正餐的一餐消费额(Y)、学习日正餐的一餐消费额参考值(N)。 若满足X≥M,以及Y<N,可认定为是刷卡次数偏低的群体,这个群体组成一个集合。结合该群体的基本信息如生源地、性别、年龄、年级等分析其相关性。 |
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com