我遇到了一个非常奇怪的情况。
我正在尝试使用sklearn中的SVM进行二分类任务。以下是我的代码:
scaler = StandardScaler() x_train = scaler.fit_transform(x_train) x_test = scaler.transform(x_test) svc = SVC(kernel='rbf', class_weight='balanced', gamma='auto',probability=True) c_range = np.logspace(-5, 15, 11, base=2) gamma_range = np.logspace(-9, 3, 13, base=2) param_grid = [{'kernel': ['rbf'], 'C': c_range, 'gamma': gamma_range}] grid = GridSearchCV(svc, param_grid, cv=5, n_jobs=-1) clf = grid.fit(x_train, y_train) predictions = grid.predict(x_test)
如您所见,这是一个非常简单的模型,其中x_train
是训练数据的输入,x_test
是测试数据的输入,y_train
是训练数据的标签。
我的问题是,既然我没有设置任何种子,为什么这段代码总是能重现相同的结果?在我的理解中,模型中应该存在随机性,至少应该有几种不同的结果。
让我更清楚地说明一下,我并不是在抱怨我的模型总是对所有测试数据预测相同的类别。我是在抱怨即使我设置了不同的种子,我的模型仍然产生一致的结果。
例如,假设我有3个测试数据。当我将种子设置为1或2或其他值时,测试数据的预测总是[1,0,1]。
我尝试过设置不同的种子,改变模型中的random_state,但都没有效果。我的训练数据非常小,只有几百个。测试数据较大,有数千个数据。
回答:
下面的代码将为SVC中的不同random_state
值返回不同的类概率。事实上,在不同运行中预测的类别相同,仅仅意味着数据点所属的类别没有太多的模糊性。换句话说,如果你的数据点看起来像这个,它们很容易分离,不同种子的模型会为相同的点分配相同的类别。
在实践中,如果第一个模型为某个数据点分配的概率例如{A: 0.942, B: 0.042, C: 0.016},而另一个具有不同种子的模型分配的概率是{A: 0.917, B: 0.048, C: 0.035},那么这两个模型都会为这个点预测相同的类别A。
另外,大部分数据应该用于训练,而不是测试。