我对决策树
还比较陌生,在沿着分支向下移动时理解它们有些困难。我对在R中生成的图表有几个问题。响应变量是Survived
(Yes
/No
),由年龄、票价、兄弟姐妹数量和父母数量来预测。我使用Kaggle的泰坦尼克
数据集附加了一个决策树在下面。
- 绿色和蓝色的不同颜色代表什么意思?
- 如何解释叶节点?
- 我理解最顶部的节点解释为38%的人幸存,62%的人未幸存,100%的人口在这个桶中。如果我向右移动…我该如何解释桶#3?如果我继续移动,桶#6呢?等等…
回答:
1) 一个节点根据其多数类别进行着色。多数类别标签为no
(未幸存)的节点被涂成绿色,否则为蓝色(yes
或幸存)。
2) 让我们解释最左边的底部叶节点。83%
的节点对应的数据点类别标签为no
,17%
的类别标签为yes
。这个节点包含了整个数据集的62%
的数据点。
3) 桶#3可以类似地解释:26%
的节点对应的数据点类别标签为no
,74%
的类别标签为yes
。这个节点包含了整个数据集的35%
的数据点。如果你计算节点#2和#3的no
标签的加权比例,你会得到0.65*0.81+0.35*0.26=0.6175~0.62
,这是根节点中包含no
标签的数据比例。