|
摘; 要; 关联规则挖掘是数据挖掘中的一个重要问题,在最近几年被广泛研究。本文将粗糙集理论及方法引入高校教师成长信息,通过属性约简降低属性纬数,然后基于粗糙集理论进行关联规则挖掘,得出了一些有益的结论,为拓展粗糙集的应用领域做出了有益的探索。 ; 关键词; 粗糙集;关联规则;教师成长;区分矩阵;属性约简;1; 引言 ; 粗糙集理论(Rough Set)是由波兰数学家Z.Pawlak 在80年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘,重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数,总结出适用于决策支持的知识规则,是粗糙集理论最重要的应用之一。 ; 关联规则挖掘是数据挖掘中的一个重要问题,随着全球范围内数据库中存储的数据量迅速增大,数据间的关联规则往往过于庞大而难以分析,如何有效的得到有意义的关联规则成为研究热点。本文以高校信息化为应用背景,将基于粗糙集理论的数据挖掘技术应用于高校教师成长过程,得到实际可用的关联规则,为管理者提供决策支持。2; 基本概念2.1; 粗糙集理论的基本概念 ; 粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。 ; 定义1:粗糙集理论中定义信息系统为一个如下四元组:S=(U,A,V,F),其中U=(x1,x2,…,xn)是对象集,即论域;A是属性集合,A=C∪D,且C∩D=Φ,其中C为条件属性,D为决策属性;V为属性A的值域;F是U×A→V的映射,它为U中各对象的属性指定唯一值。S又被称为决策表。 ; 定义2:在信息系统S中,对于一属性集I∈A,可构造对应的二元等价关系。IND(I){x,y∈U×U|νa∈I,有a(x)=a(y)},称IND(I)为由I 构造的不可分辨关系。不可分辨关系实际上就是I上的等价关系。因此,针对属性集I上的不可分辨关系,U可划分为几个等价类,用U/IND(I)表示。 ; 定义3:约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集C的简约是C的一个非空子集C′,C和C′必须满足以下两个性质: ; (1)ind(C,D)=ind(C′,D),不存在C″ C′有ind(C″,D) =ind(C′,D)。 ; (2)一个决策表可能同时存在几个约简,C的约简的集合记作Red(C)。这些约简的交集定义为决策表的核(Core),Core(C)=∩Red(C)核中的属性是影响分类的重要属性。 ; 定义4:信息系统S中关于属性集C的区分矩阵M(C)=(mij)n×n定义为:
M(C)=(mij)n×n是代表了区分xi,xj的完整信息。2.2; 关联规则 ; 关联规则是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。定义6:设I = {i1,i2,…,in}是项的集合。包含K个项的项集称作K项集。设D是数据库记录的集合,其中每个事务T是项的集合,且TI。设X是一个项集,事务T包含X当且仅当XT。 ; 关联规则是形如XY的蕴涵式,这里XI,YI,且X∩Y=Φ。X称为规则的左部或规则的前提(简记LHS),Y称为规则的右部或结论(简记RHS)。 ; 度量规则的参数是支持度(Support)与置信度(Confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率,支持度揭示了规则的重要性。置信度表示实例在包含条件属性的前提下,也包含决策属性的条件概率,它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为:
; 其中P(X)表示是指X在数据D中出现的概率,其余雷同。Support(XY)指X、Y在D中同时出现的概率;Confidence(XY)表示在X出现的前提下Y出现的条件概率。如果得到的规则同时满足支持度不小于支持度阈值和置信度不小于置信度阈值,则该规则有意义。3; 基于粗糙集的关联规则挖掘模型 ; 本文应用基于粗糙集的关联规则的挖掘过程分为三步:数据预处理,属性约简与关联规则的挖掘,见图1。 ; (1)数据预处理:通过对高校人事数据的初始信息进行数据清洗,缺失值处理,转换及数据选择,获取初始信息表,且初始表转换为粗糙集形式,并明确条件属性集和决策属性; ; (2)属性约简:对条件属性进行约简,删除多余属性,用区分矩阵来完成约简和求核,在此基础上生成约简属性集; ; (3)关联规则挖掘:输入支持度阈值和置信度阈值,根据数据约简结果,利用粗糙集理论文献[6]中的算法,进行关联规则的挖掘。
图1 基于粗糙集的关联规则模型4 基于粗糙集的数据挖掘技术在教师成长中的应用 ; 随着信息化在社会各方面的迅速普及,高校在近几年来已经掌握了大量的教师信息数据,并形成了相应的教师信息数据库。然而,面对如此海量的信息,高校管理者如何利用,如何从中发现对高校教师队伍建设有实际指导意义的规律,特别是如何才能将人才的引进及培养与社会的需求正确结合?本文用数据挖掘技术在这方面做了一定的探索和研究,期望能得到一些有益的启示。 ; 下面本文就以高校教师成长信息为例(本文以职称教授及副教授作为高校人才成长的标志,根据参加工作时间的长短作划分为成长的快慢),说明基于粗糙集的关联规则挖掘算法的实施过程。 ; 根据上述构建的数据挖掘模型,利用启发式属性约简算法对高校教师数据进行约简。首先进行数据预处理,其次求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最后提取规则应用于新对象的分析和预测。 ; 1)数据预处理 ; 要用基于粗糙集的数据挖掘方法进行知识发现,就需要首先组织好数据表。本文以某高校教师数据,采用关系数据库模型,经关系数据库的导入及连接并进行抽象、离散化等预处理。将影响教师成长的因素:性别、政治面貌、专业、第一学历、最高学历、毕业学校、年龄、学历变动、现聘职称、教学能力和科研能力作为系统的条件属性C,而将教师的成长速度作为决策属性D。通过属性选择与处理后的信息表示如表1所示:表1; 属性离散化表示字段名称数据类型说明性别float(2)1--男,2—女政治面貌float(2)划分为四个等级:1-党员、2-共青团员、3-群众、4民主党派第一学历float(2)分为四个等级:1-博士、2-硕士、3-本科、4-本科以下最高学历float(2)分为四个等级:同上毕业学校float(2)概化为三个等级:1-国外高校、2-重点高校、3-普通高校现聘职称float(2)分为两个等级:1-教授、2-副教授评定年龄float(2)1-[31,35]、2-[36,40]、3-[41,45]、4-[46,50]、5-大于50成长float(2)1-快、2-中、3-慢学历变动float(2)1-是、0-否专业float(2)划分为两类:1-理科、2-文科教学能力float(2)离散化为三个等级:1-高、2-中、3-一般科研能力float(2)离散化为三个等级:1-高、2-中、3-一般 ; |
|