在决策树中查找样本到决策边界的距离

我想在scikit-learn中查找训练好的决策树分类器的样本到决策边界的距离。所有的特征都是数值型的,特征空间可以是任意大小。

到目前为止,我基于这里的示例,制作了一个2D案例的可视化展示:

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import make_moons# 生成一些示例数据X, y = make_moons(noise=0.3, random_state=0)# 训练分类器clf = DecisionTreeClassifier(max_depth=2)clf.fit(X, y)# 绘图x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])Z = Z.reshape(xx.shape)plt.contourf(xx, yy, Z, alpha=0.4)plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor='k')plt.xlabel('a'); plt.ylabel('b');

enter image description here

我了解到,对于其他一些分类器如SVM,可以通过数学方法计算这个距离 [1, 2, 3]。训练后的决策树所学到的规则定义了边界,可能也有助于算法计算距离 [4, 5, 6]:

# 绘制训练好的树from sklearn import treeimport graphviz dot_data = tree.export_graphviz(clf, feature_names=['a', 'b'],  class_names=['1', '2'], filled=True)  graph = graphviz.Source(dot_data)  

enter image description here


回答:

由于样本周围可能存在多个决策边界,这里我们假定距离是指到最近的决策边界的距离。

解决方案是一个递归的树遍历算法。注意,决策树不允许样本位于边界上,例如SVM,每个样本在特征空间中必须属于某个类别。因此,我们将通过小步调整样本的特征,每当这导致一个区域的标签与样本最初由训练好的分类器分配的标签不同时,我们假设已经到达了决策边界。

具体来说,像任何递归算法一样,我们需要考虑两种主要情况:

  1. 基本情况,即我们处于叶节点。我们只需检查当前样本是否有不同的标签:如果是,则返回它,否则返回None
  2. 非叶节点。有两个分支,我们将样本发送到两个分支。我们不会修改样本来将其发送到它自然会进入的分支。但在发送到另一个分支之前,我们查看节点的(特征,阈值)对,并仅调整样本的给定特征,使其刚好越过阈值的另一侧。

完整的Python代码如下:

def f(node,x,orig_label):    global dt,tree    if tree.children_left[node]==tree.children_right[node]: #Meaning node is a leaf        return [x] if dt.predict([x])[0]!=orig_label else [None]    if x[tree.feature[node]]<=tree.threshold[node]:        orig = f(tree.children_left[node],x,orig_label)        xc = x.copy()        xc[tree.feature[node]] = tree.threshold[node] + .01        modif = f(tree.children_right[node],xc,orig_label)    else:        orig = f(tree.children_right[node],x,orig_label)        xc = x.copy()        xc[tree.feature[node]] = tree.threshold[node]         modif = f(tree.children_left[node],xc,orig_label)    return [s for s in orig+modif if s is not None]

这将返回一个导致标签不同的叶节点的样本列表。我们现在只需要选择最近的一个:

dt =  DecisionTreeClassifier(max_depth=2).fit(X,y)tree = dt.tree_res = f(0,x,dt.predict([x])[0]) # 0是根节点的索引ans = np.min([np.linalg.norm(x-n) for n in res]) 

为了说明:

enter image description here

蓝色是原始样本,黄色是位于决策边界上的最近样本。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注