为了更深入地研究和利用激增的煤炭隐患数据,对某煤矿的隐患及其属性进行了研究、分析与分层,构建了属性的星形全连接模型;并通过数据清洗、概化及连续属性离散化等数据挖掘技术,将大量原始隐患数据转化为适用挖掘的数据。应用经剪枝和连接步的优化改进的Apriori算法,对该煤矿近两年的物态隐患数据记录进行挖掘,得到频繁项集,导出关联规则;最后利用SQL Server 2008数据库和VS2010平台,构建并实现了煤矿物态隐患信息挖掘系统。
软件度量是对软件开发项目、过程及其产品进行数据定义、收集以及分析的持续性定量化过程,目的在于对此加以理解、预测、*估、控制和改善,从而保证软件开发中的高效率、低成本、高质量[1]。但是,得到正确的度量只是测量程序的一部分。软件质量是与所收集和分析的数据质量密切相关的,数据清洗过程的目的就是要解决“脏数据”的问题。数据清洗是指去除或修补源数据中的不完整、不一致、含噪声的数据。在源数据中,可能由于疏忽、懒惰,甚至为了保密使系统设计人员无法得到某些数据项的数据[2]。根据决策系统中“garbage i