数据挖掘技术在中等职业学校管理实践中的应用研究

时间:2021-03-12 12:14:43 论文范文 我要投稿

数据挖掘技术在中等职业学校管理实践中的应用研究

摘  要:我国中等职业教育的学校规模、在校生人数等都有了很大的发展,高效的数据管理对学校发展起到越来越重要的作用。利用Hash树和Fp树对Apriori算法对学生信息、教学信息、后勤信息进行分析和研究,并进行优化和实施关联规则挖掘,用遗传算法对挖掘成果进行优化,以此来推动中等职业教育的发展。
关键词: 数据挖掘;关联规则;遗传算法  
        1 引言
        信息时代的计算机数据存储技术等得到了飞速发展。大量的数据与数据分析处理方法相互结合产生了数据挖掘技术,目前数据挖掘是在许多领域和方面得到了广泛应用的技术。随着中等职业教育的发展,提高职业教育质量已成为一个系统工程。目前职业学校已存储了以学校教学实践为中心的大量数据,但是其背后所蕴含的大量有用信息并未得到发现和利用,主要是因为利用分析方法不适应职业学校的大量复杂数据。利用数据挖掘技术从中发现有价值的信息可以指导职业学校教学、就业、后勤等各方面的管理,提高管理效率,降低成本,推动职业教育更好的发展。
        2  关联规则挖掘算法
        2.1 Apriori算法及改进
        Apriori算法是关联规则挖掘的基本算法,它利用项集的先验性知识和层次顺序的循环搜索方法来发现频繁项集,首先产生频繁1-项集L1;然后利用L1来产生频繁2-项集L2,不断循环下去直到无法发现更多的频繁K-项集为止。
        从两个方面对Apriori算法进行改进。
        2.1.1 利用HASH树对支持度进行计数
        HASH树根节点为空,用HASH函数来决定内部节点的分支走向,遍历HASH树可以对候选项集支持度进行计数,用HASH树对候选项集的支持度进行计数,避免了穷举法对事务中的每个项集与候选项集进行比较,而是进行了分类,降低了支持度计数的任务量。 
        2.1.2 用FP树提取频繁项集
        FP树(frequent pattern tree)实现了对数据的紧凑表示,可以从该结构中直接提取频繁项集。FP树之中的一条路径所表示的数据序列对应一条事务中的数据,对于不同事务中相同的数据项对应的FP树中的路径可以重叠,从而实现了事务数据的紧凑表示。FP树的节点包括数据项的标记和计数,计数表示经过该路经的事务个数。
        (1)对各数据项的数据按照它们的支持度计数的递减顺序排序,从而调整数据集中各数据的次序。
        (2)由数据集构造FP树,对第一个事务创建从根节点到事务中各数据的路径并进行支持度计数。
        (3)继续读入事务,与创建过路径的事务进行比较将新事务加入FP树,如果与创建过的事务有相同的路径则合并相同的路径,相应节点支持度增加,不同路径增加不同的分支,进行支持度计数。   
        (4)继续该过程直到所有的.事务都映射到FP树。
        (5)由FP树依据不同的结尾进行划分,产生以其为后缀的路径。
        (6)不同的后缀产生相应的频繁项集。
        2.2  关联规则的发现
        由频繁项集可以较为容易地产生相应的关联规则,可以通过计算置信度来获得强关联规则,关联规则的操作为:
        2.2.1 对于每个频繁项集L产生所有的非空子集。
        2.2.2 对于L的非空子集 ,如果c(   L- )= ≥min_s,则产生  (L- )的关联规则, min_s为最小置信度阀值。
        3  学校信息的数据挖掘
        3.1 对学校信息进行关联挖掘
        下边以有代表性的学生就业方面信息为例来进行分析。就业信息库中的数据项包括:学生的编号、成绩、学生干部、操行等级、实践动手能力、就业单位,其中编号为学生的唯一标识。为了便于数据存取现在对各数据项的内容进行编号,其中成绩项分为:优(a1),良(a2),一般(a3);学生干部分为:是(b1)、不是(b2);操行等级程度分为:良(c1)、优(c2)、一般(c3);实践动手能力分为:强(d1)、较强(d2)、一般(d3)。就业单位分为:大型公有企业(e1)、大型私企 (e2)、一般公有企业 (e3)、一般私企(e4)。
        现有部分学生就业信息: 
         
        学生信息库中共有125条学生就业方面的信息,应用挖掘软件对其进行数据挖掘,最小支持度选定为0.3,最小置信度选定为0.5。其数据信息和挖掘结果如下所示: 
         
        在该就业数据库中就业信息处于最主要的地位,也最有分析价值和现实意义。为了挖掘就业方面的关联规则,发现影响就业情况的因素,从挖掘结果中提取“结论”含有就业数据项(e1,e2,e3)的规则,得到的规则表达式和可信度为:
        (1)b1|c2 e1    confidence=0.84
        (2)b1 e1      confidence=0.62