在Hadoop大数据平台的基础上构建了一个基于MapReduce框架并行化的C4.5决策树算法,并采用此算法设计了一套银行贷款的风险预测系统。算法结合MapReduce框架、HDFS 文件存储系统,使用Java语言编写,根据贷款人的各个特征属性信息增益率来选择决策点。其中包含对连续值属性、离散值属性的处理,采用后剪枝悲观剪枝的方法对决策树进行剪枝,以避免决策树出现过拟合的特征。系统包含数据导入、数据分析、结果展示等模块,操作简单、快捷,能准确预测贷款人的信誉情况,平均准确率达到65%~80%,而