我正在尝试用语音数据训练一个SVM,这里使用的是RAVDESS数据集,你可以在这里找到:https://www.kaggle.com/uwrfkaggler/ravdess-emotional-speech-audio
这个数据集有24个目录,但我只使用前20个目录。
首先,我导航并将这20个目录中所有文件的目录路径保存到一个数组中。
然后,我遍历数组,将类别保存到另一个数组中,并提取音频文件的特征。我将这些特征保存到一个数据框中。
我可以看到类别是某种程度上平衡的:
>>from collections import Counter>>print(Counter(klass).keys()) # equals to list(set(words))>>print(Counter(klass).values()) # counts the elements' frequencydict_keys(['neutral', 'calm', 'happy', 'sad', 'angry', 'fearful', 'disgust', 'surprised'])dict_values([76, 152, 152, 152, 152, 152, 152, 152])
接下来,我对数据框进行预处理和标准化:
from sklearn.preprocessing import StandardScalerx2 = x.copy()x2.drop(["file","start","end"], axis = 1,inplace = True)scaler = StandardScaler()print(scaler.fit(x2))x2 = scaler.transform(x2)x2 = pd.DataFrame(x2)
现在我开始用以下代码训练SVM:
from sklearn.model_selection import train_test_splitX_train, X_test, Y_train, Y_test = train_test_split(x2, klass, test_size = 0.20,random_state = 1)
当然,在此之前我优化了超参数(gamma, C等)。
之后我检查了最佳参数和分数,看起来相当不错。
Accuracy Training: 0.9857456140350878Accuracy Test: 0.6271929824561403
到目前为止,一切顺利。我已经提取了特征并用情感分类训练了SVM。现在我想预测一个模型未知的新的音频文件的情感。这里我随机从数据集的第24个目录中选择了一个音频文件。这里似乎出现了问题:
import randomXnew = pd.DataFrame()EvalFile = glob.glob('{}\**\*24.wav'.format(PATH_RAVDESS),recursive=True)Xnew = Xnew.append(smile.process_file(EvalFile[random.randint(0, len(EvalFile)-1)]))Xnew = Xnew.reset_index()Xnew.drop(["file","start","end"], axis = 1,inplace=True)#Standardising is skipped because it makes no sense with one fileYnew = grid.predict(Xnew)print("File=%s \nPredicted=%s" % (rdfile, Ynew))
无论选择哪个文件,模型总是预测相同的类别'angry'
。
我哪里做错了?
回答:
你在代码中的注释:
#Standardising is skipped because it makes no sense with one file
标准化不仅有意义(即使只有一个文件),而且还是必需的;因为你的模型是用标准化数据训练的,它期望任何未来的预测也使用标准化数据。不这样做可能会导致你描述的那种行为。
因此,在预测你的Xnew
之前,你应该用你已经拟合的scaler
对其进行转换:
Xnew = scaler.transform(Xnew)Ynew = grid.predict(Xnew)