它是一个面向新手和专家的开源的机器学习和数据可视化工具,带有很多用于数据挖掘或机器学习模型的交互式数据分析工作流程;另外,它绑定了Python语言进行脚本开发。包含一系列数据挖掘流程的组件,比如数据预处理,建模,模型评估以及可视化。
数据预处理主要包括:数据合并(将两个不同数据集的指定特征合并为同一数据集);数据采样,数据异常点去除以及相关性检验(协方差),rank以及置乱等
模型主要包括:CN2规则归纳,k近邻,决策树,随机森林,支持向量机,线性回归,逻辑回归,朴素贝叶斯,adaboost,神