sklean SVM / SVC总是对任何给定输入预测相同的类别

我正在尝试用语音数据训练一个SVM,这里使用的是RAVDESS数据集,你可以在这里找到:https://www.kaggle.com/uwrfkaggler/ravdess-emotional-speech-audio

这个数据集有24个目录,但我只使用前20个目录。

首先,我导航并将这20个目录中所有文件的目录路径保存到一个数组中。

然后,我遍历数组,将类别保存到另一个数组中,并提取音频文件的特征。我将这些特征保存到一个数据框中。

我可以看到类别是某种程度上平衡的:

>>from collections import Counter>>print(Counter(klass).keys()) # equals to list(set(words))>>print(Counter(klass).values()) # counts the elements' frequencydict_keys(['neutral', 'calm', 'happy', 'sad', 'angry', 'fearful', 'disgust', 'surprised'])dict_values([76, 152, 152, 152, 152, 152, 152, 152])

接下来,我对数据框进行预处理和标准化:

from sklearn.preprocessing import StandardScalerx2 = x.copy()x2.drop(["file","start","end"], axis = 1,inplace = True)scaler = StandardScaler()print(scaler.fit(x2))x2 = scaler.transform(x2)x2 = pd.DataFrame(x2)

现在我开始用以下代码训练SVM:

from sklearn.model_selection import train_test_splitX_train, X_test, Y_train, Y_test = train_test_split(x2, klass, test_size = 0.20,random_state = 1)

当然,在此之前我优化了超参数(gamma, C等)。

之后我检查了最佳参数和分数,看起来相当不错。

Accuracy Training:  0.9857456140350878Accuracy Test:  0.6271929824561403

到目前为止,一切顺利。我已经提取了特征并用情感分类训练了SVM。现在我想预测一个模型未知的新的音频文件的情感。这里我随机从数据集的第24个目录中选择了一个音频文件。这里似乎出现了问题:

import randomXnew = pd.DataFrame()EvalFile = glob.glob('{}\**\*24.wav'.format(PATH_RAVDESS),recursive=True)Xnew = Xnew.append(smile.process_file(EvalFile[random.randint(0, len(EvalFile)-1)]))Xnew = Xnew.reset_index()Xnew.drop(["file","start","end"], axis = 1,inplace=True)#Standardising is skipped because it makes no sense with one fileYnew = grid.predict(Xnew)print("File=%s \nPredicted=%s" % (rdfile, Ynew))

无论选择哪个文件,模型总是预测相同的类别'angry'

我哪里做错了?


回答:

你在代码中的注释:

#Standardising is skipped because it makes no sense with one file

标准化不仅有意义(即使只有一个文件),而且还是必需的;因为你的模型是用标准化数据训练的,它期望任何未来的预测也使用标准化数据。不这样做可能会导致你描述的那种行为。

因此,在预测你的Xnew之前,你应该用你已经拟合的scaler对其进行转换:

Xnew = scaler.transform(Xnew)Ynew = grid.predict(Xnew)

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注