sklean SVM / SVC总是对任何给定输入预测相同的类别

我正在尝试用语音数据训练一个SVM，这里使用的是RAVDESS数据集，你可以在这里找到：https://www.kaggle.com/uwrfkaggler/ravdess-emotional-speech-audio

这个数据集有24个目录，但我只使用前20个目录。

首先，我导航并将这20个目录中所有文件的目录路径保存到一个数组中。

然后，我遍历数组，将类别保存到另一个数组中，并提取音频文件的特征。我将这些特征保存到一个数据框中。

我可以看到类别是某种程度上平衡的：

>>from collections import Counter>>print(Counter(klass).keys()) # equals to list(set(words))>>print(Counter(klass).values()) # counts the elements' frequencydict_keys(['neutral', 'calm', 'happy', 'sad', 'angry', 'fearful', 'disgust', 'surprised'])dict_values([76, 152, 152, 152, 152, 152, 152, 152])

接下来，我对数据框进行预处理和标准化：

from sklearn.preprocessing import StandardScalerx2 = x.copy()x2.drop(["file","start","end"], axis = 1,inplace = True)scaler = StandardScaler()print(scaler.fit(x2))x2 = scaler.transform(x2)x2 = pd.DataFrame(x2)

现在我开始用以下代码训练SVM：

from sklearn.model_selection import train_test_splitX_train, X_test, Y_train, Y_test = train_test_split(x2, klass, test_size = 0.20,random_state = 1)

当然，在此之前我优化了超参数（gamma, C等）。

之后我检查了最佳参数和分数，看起来相当不错。

Accuracy Training:  0.9857456140350878Accuracy Test:  0.6271929824561403

到目前为止，一切顺利。我已经提取了特征并用情感分类训练了SVM。现在我想预测一个模型未知的新的音频文件的情感。这里我随机从数据集的第24个目录中选择了一个音频文件。这里似乎出现了问题：

import randomXnew = pd.DataFrame()EvalFile = glob.glob('{}\**\*24.wav'.format(PATH_RAVDESS),recursive=True)Xnew = Xnew.append(smile.process_file(EvalFile[random.randint(0, len(EvalFile)-1)]))Xnew = Xnew.reset_index()Xnew.drop(["file","start","end"], axis = 1,inplace=True)#Standardising is skipped because it makes no sense with one fileYnew = grid.predict(Xnew)print("File=%s \nPredicted=%s" % (rdfile, Ynew))

无论选择哪个文件，模型总是预测相同的类别'angry'。

我哪里做错了？

回答：

你在代码中的注释：

#Standardising is skipped because it makes no sense with one file

标准化不仅有意义（即使只有一个文件），而且还是必需的；因为你的模型是用标准化数据训练的，它期望任何未来的预测也使用标准化数据。不这样做可能会导致你描述的那种行为。

因此，在预测你的Xnew之前，你应该用你已经拟合的scaler对其进行转换：

Xnew = scaler.transform(Xnew)Ynew = grid.predict(Xnew)

学技术

sklean SVM / SVC总是对任何给定输入预测相同的类别

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复