决策树解释(泰坦尼克数据)

我对决策树还比较陌生,在沿着分支向下移动时理解它们有些困难。我对在R中生成的图表有几个问题。响应变量是SurvivedYes/No),由年龄、票价、兄弟姐妹数量和父母数量来预测。我使用Kaggle的泰坦尼克数据集附加了一个决策树在下面。

  1. 绿色和蓝色的不同颜色代表什么意思?
  2. 如何解释叶节点?
  3. 我理解最顶部的节点解释为38%的人幸存,62%的人未幸存,100%的人口在这个桶中。如果我向右移动…我该如何解释桶#3?如果我继续移动,桶#6呢?等等…

泰坦尼克决策树


回答:

1) 一个节点根据其多数类别进行着色。多数类别标签为no(未幸存)的节点被涂成绿色,否则为蓝色(yes或幸存)。

2) 让我们解释最左边的底部叶节点。83%的节点对应的数据点类别标签为no17%的类别标签为yes。这个节点包含了整个数据集的62%的数据点。

3) 桶#3可以类似地解释:26%的节点对应的数据点类别标签为no74%的类别标签为yes。这个节点包含了整个数据集的35%的数据点。如果你计算节点#2和#3的no标签的加权比例,你会得到0.65*0.81+0.35*0.26=0.6175~0.62,这是根节点中包含no标签的数据比例。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注