北京市高中会考数据挖掘系统设计与实施
【摘要】:
北京市普通高中毕业会考作为以测量和评价高中学生学业水平、学校教学质量为主要目的大规模考试,属于标准参照性考试,它是衡量普通高中学生是否达到毕业标准的依据。随着数据库系统在会考管理中的广泛应用,北京教育考试院积累了大量与会考相关的数据。由于缺乏有效的处理手段,这些数据在业务活动结束后成了难得再访问的数据档案。将数据挖掘技术引入高中会考数据分析中,对沉积的数据进行分析,找出背后隐藏的知识,发现数据中潜在的规律,为科学评价高中会考在高中教育教学中的作用,为教育行政部门制定相关政策提供数据支持。
数据挖掘成功的关键是确定合适的挖掘目标,挖掘目标的确立既要考虑业务管理的需要,还要考虑已有数据的特性,保证目标在现有数据的基础上是可以实现的。主要目标是通过分析不同考试时间(正常考试、非正常考试)、不同类别考生(普高、私立)、不同考试形式(统一考试、自行组考)的考试分数特性,对现有的政策的修改和完善提供数据支持,从而使北京市高中会考能够真正发挥对教育教学质量的监控和评价作用。
首先,收集整理相关数据,数据主要由会考业务系统产生,为满足挖掘主题的需求可能还需要从其他业务系统获得数据。现有的业务系统主要采用关系数据模型,为挖掘的需要可能需要进行模型转换。其次,需要对原始数据进行清理,去掉异常数据,如空值、不合理的值;还需要对原始数据进行简化,删除与挖掘主题无关的数据。
确定了挖掘目标和对数据进行预处理之后,下面接着是选择合适的满足挖掘需要的挖掘算法,本课题在研究几个重要的挖掘算法的特性、算法的应用方式、算法的实现等方面的基础上,主要研究两类算法:关联分析和分类分析。如何有效利用挖掘算法解决实际问题是研究的重点。
最后,对挖掘得到的结果进行分析,确定其代表的含义,判定是否具有实际意义。