一、概论
C4.5主要是在ID3的基础上改进,ID3选择(属性)树节点是选择信息增益值最大的属性作为节点。而C4.5引入了新概念“信息增益率”,C4.5是选择信息增益率最大的属性作为树节点。
二、信息增益
以上公式是求信息增益率(ID3的知识点)
三、信息增益率
信息增益率是在求出信息增益值在除以。
例如下面公式为求属性为“outlook”的值:
四、C4.5的完整代码
from numpy import *
from scipy import *
from math import lo
本文实例为大家分享了python实现ID3决策树算法的具体代码,供大家参考,具体内容如下
'''''
Created on Jan 30, 2015
author: 史帅
'''
from math import log
import operator
import re
def fileToDataSet(fileName):
'''''
此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签
参数:
fileName