📜  决策树中的基尼杂质和熵 – ML(1)

📅  最后修改于: 2023-12-03 15:07:07.845000             🧑  作者: Mango

决策树中的基尼杂质和熵 – ML

在机器学习中,决策树是一种常用的分类和回归模型。在决策树算法中,我们需要使用一些指标来评估每个节点的纯度,以便在树的分支中做出正确的决策。在这篇文章中,我们将讨论两种常见的指标:基尼杂质和熵。

基尼杂质

基尼杂质是一个用于度量给定数据集纯度的指标。在决策树算法中,我们需要将数据集分成不同的子集,在每个节点上做出决策。基尼杂质被定义为下面的公式:

$$Gini=1-\sum_{i=1}^{c}P_{i}^{2}$$

其中 $c$ 是分类的数量,$P_i$ 是属于第 $i$ 类的样本占总样本的比例。

基尼杂质对于二元分类是非常直观的。例如,如果我们有一个数据集,其中有 $3$ 个样本属于类别 $A$, $2$ 个样本属于类别 $B$,并且有 $5$ 个样本总共,那么基尼杂质可以计算为:

$$Gini=1-(\frac{3}{5})^2-(\frac{2}{5})^2=0.48$$

基尼杂质的取值范围是 $[0,1]$,其中 $0$ 表示完美的分类(即所有样本都属于同一类), $1$ 表示最差的分类(即每个样本都属于不同的类)。

熵是另一个常用的指标,用于度量给定数据集的纯度。熵的定义如下:

$$Entropy=-\sum_{i=1}^{c}P_{i}\log_2{P_{i}}$$

其中 $c$ 是分类的数量, $P_i$ 是属于第 $i$ 类的样本占总样本的比例。

与基尼杂质类似,熵也对于二元分类是很直观的。例如,如果我们有一个数据集,其中有 $3$ 个样本属于类别 $A$, $2$ 个样本属于类别 $B$,并且有 $5$ 个样本总共,那么熵可以计算为:

$$Entropy=-(\frac{3}{5}\log_2{\frac{3}{5}}+\frac{2}{5}\log_2{\frac{2}{5}})=0.97$$

熵的取值范围也是 $[0,1]$,其中 $0$ 表示完美的分类, $1$ 表示最差的分类。

总结

基尼杂质和熵是常用的决策树指标,用于度量数据集的纯度。在实际应用中,这些指标通常用于帮助我们选择最佳的分裂点,以尽可能地提高树的准确性。