频繁项集挖掘是关联规则挖掘中至关重要的一步。对于稠密数据集的频繁项集挖掘,传统的挖掘算法往往产 生大量无用的中间结果,造成内存利用率的极大浪费,尤其是在支持度较低的情况下。Diff set s 算法通过引入“差集”的概 念,在一定程度上解决了挖掘过程中产生的大量中间结果与内存容量之间的矛盾。改进型Diff set s 算法是在原算法的基础 上,在差集运算过程中根据差集中所包含的事务标识个数进行递减排序,进一步减少了挖掘过程中产生的中间结果数量。 分析与实例表明,改进后的算法在执行过程中将占用更
将 K—me a n s 算法引入到朴素贝叶斯分类研究中 , 提 出一种基于 K—me a n s的朴素贝叶斯分类算法。首先用 K— me . a r k s 算法对原始数据集 中的完整数据子集进行聚类 , 计算缺失数据子集中的每条记录与 个簇重心之间的相似度 , 把记 录赋给距离最近的一个簇, 并用该簇相应的属性均值来填充记录的缺失值 , 然后用朴素贝叶斯分类算法对处理后的数据 集进行分类。实验结果表明, 与朴素贝叶斯相比, 基于 K—me a n s 思想的朴素贝叶斯算法具有较高的分类准确