DataCato

I am an normal person obsessed with the art of computer science.

决策树中的信息商与信息增益

熵（entropy）

熵是数据集合不确定性（amount of uncertainty）的度量方法。
entropy

S，数据集。
- 在分离数据集的迭代过程中，数据集会逐渐变小，分离出来的数据集都是原数据集的子集。
X，数据集中的类别集合。
p(x)，数据集S中类别为x的元素所占的百分比。

熵是度量信息分布的未知性数量的方法。熵值越小，表示信息的分布越趋于可知。应用到数据集中，当熵 H(S) = 0 时，数据集被认为是完全分类了。

信息增益（information gain）

信息增益是度量数据集根据属性A分离前后的熵差，也即是表示数据集分离后的信息不确定性的减少量。
information gain

H(S)，数据集S的熵。
T，数据集S根据属性A分离后的子集的集合。
p(t)，在子集 t 中的元素在数据集S中所有元素所占的比例。
H(t)，子集 t 的熵

Share on

Twitter Facebook LinkedIn

You may also enjoy

Bloombits_in_ethereum

intro hello this’s scratch.

决策树学习笔记

ID3算法学习笔记