决策树之特征选择
2020/6/29大约 2 分钟约 603 字
疏理一下决策树的特征选择的方法,即决策树的节点划分。
一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。
1. 符号声明
假设当前样本集合中第类样本所占的比例为,离散属性有个可能的取值,若使用来对样本集进行划分,则会产生个分支结点,其中第个分支结点包含了中所有在属性上取值为的样本,记作。
样本集合的信息熵定义为
2. 信息增益
实际上,信息增益准则对可取数目较多的属性有所偏好。
3. 增益率
决策树算法选择增益率(gain ratio)来选择最优划分属性。
称作属性的固有值(intrinsic value)。
需注意的是,增益率准则对可取值较少的属性有所偏好,因此,算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
4. 基尼指数
直观来讲,反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。因此,越小,则数据集的纯度越高。
属性的基尼指数:
于是,我们在候选属性集合中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即:
更新日志
2024/5/19 01:55
查看所有更新日志
5be7e-于3ba08-于6bda4-于666db-于
