熵(entropy)

熵是数据集合不确定性(amount of uncertainty)的度量方法。
entropy

  • S,数据集。
    • 在分离数据集的迭代过程中,数据集会逐渐变小,分离出来的数据集都是原数据集的子集。
  • X,数据集中的类别集合。
  • p(x),数据集S中类别为x的元素所占的百分比。

熵是度量信息分布的未知性数量的方法。熵值越小,表示信息的分布越趋于可知。 应用到数据集中,当熵 H(S) = 0 时,数据集被认为是完全分类了。

信息增益(information gain)

信息增益是度量数据集根据属性A分离前后的熵差,也即是表示数据集分离后的信息不确定性的减少量。
information gain

  • H(S),数据集S的熵。
  • T,数据集S根据属性A分离后的子集的集合。
  • p(t),在子集 t 中的元素在数据集S中所有元素所占的比例。
  • H(t),子集 t 的熵