决策树

决策树：原理、特征选择与经典算法

决策树是一种常用的分类与回归模型，因其结构直观、易于理解和实现，被广泛应用于数据挖掘和机器学习领域。本文将详细介绍决策树的基本原理，重点讲解特征选择方法，并对ID3和C4.5两种经典算法进行说明。

决策树模型通过一系列的“if-then”规则，将数据集划分为不同的类别或数值区间。树的每个内部节点表示一个特征的判断，每个分支对应一个判断结果，每个叶子节点对应一个类别或预测值。

决策树的构建过程本质上是递归地选择最优特征进行划分，直到数据集被“纯化”或满足停止条件。

特征选择是决策树构建的核心。每次划分时，算法需要从所有特征中选择一个“最优”的特征作为当前节点的划分依据。常见的特征选择准则有：

信息增益衡量的是“使用某特征划分数据后，系统信息的不确定性减少了多少”。信息增益越大，说明该特征越能有效区分样本。

信息熵：衡量样本集合纯度的指标。对于类别集合$D$，其熵为：
$$
Ent(D) = -\sum_{k=1}^K p_k \log_2 p_k
$$
其中$p_k$为第$k$类样本的比例。
信息增益：特征$A$对数据集$D$的信息增益为：
$$
Gain(D, A) = Ent(D) - \sum_{v=1}^V \frac{|D^v|}{|D|} Ent(D^v)
$$
其中$D^v$为在特征$A$上取值为$v$的子集。

选择信息增益最大的特征进行划分。

信息增益倾向于选择取值较多的特征。为此，C4.5算法引入了信息增益率：

分裂信息（SplitInfo）：
$$
SplitInfo(D, A) = -\sum_{v=1}^V \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|}
$$
信息增益率：
$$
GainRatio(D, A) = \frac{Gain(D, A)}{SplitInfo(D, A)}
$$

选择信息增益率最高的特征进行划分。

基尼指数用于衡量集合的不纯度，CART算法采用基尼指数选择特征。本文不展开，重点关注ID3和C4.5。

ID3（Iterative Dichotomiser 3）是最早的决策树算法之一，核心思想是每次选择信息增益最大的特征进行划分。

决策过程：

优点：实现简单，适合离散特征
缺点：偏向于取值多的特征，容易过拟合

C4.5是ID3的改进版，主要改进有：

决策过程：

优点：更适合实际数据，泛化能力更强
缺点：计算量较大，树结构可能较复杂

决策树的每个决策路径都可以转化为一组“if-then”规则，便于人类理解和分析。例如：

机器学习

#机器学习

决策树

http://neutrino.top/2025/05/08/决策树/

作者

Neutrin1

发布于

2025年5月8日

许可协议