在MNIST数字识别数据集上的表现不佳

我一直在尝试使用MNIST数字识别数据集,但现在有点卡住了。我阅读了一些研究论文,并实施了我所理解的内容。基本上,我首先创建了我的训练集和交叉验证集来评估我的分类器,然后我对测试集和训练集都进行了PCA处理,之后我使用KNN和SVM来执行分类任务。我面临的主要问题是,我应该先对整个数据集进行PCA处理,然后再分离我的训练集和交叉验证集,还是先分离它们,然后分别对交叉验证集和训练集进行PCA处理。我为询问我已经尝试过的事情而道歉,因为我已经尝试了这两种情况,在第一种情况下,我的分类器表现得非常出色,我猜这是因为PCA在创建主成分时使用了测试数据集,这调整了我的结果,可能是模型偏差的原因,在另一种情况下,性能大约在20%到30%之间,这非常低。所以我有点卡住了,不知道该如何改进我的模型,任何帮助和指导都非常感激,我在下面粘贴了我的代码供参考。

library(ggplot2)library(e1071)library(ElemStatLearn)library(plyr)library(class)import.csv <- function(filename){  return(read.csv(filename, sep = ",", header = TRUE, stringsAsFactors = FALSE))}train.data <- import.csv("train.csv")test.data <- train.data[30001:32000,]train.data <- train.data[1:6000,]#Performing PCA on the dataset to reduce the dimensionality of the dataget_PCA <- function(dataset){  dataset.features <- dataset[,!(colnames(dataset) %in% c("label"))]  features.unit.variance <- names(dataset[, sapply(dataset, function(v) var(v, na.rm=TRUE)==0)])  dataset.features <- dataset[,!(colnames(dataset) %in% features.unit.variance)]  pr.comp <- prcomp(dataset.features, retx = T, center = T, scale = T)  #finding the total variance contained in the principal components  prin_comp <- summary(pr.comp)  prin_comp.sdev <- data.frame(prin_comp$sdev)  #print(paste0("%age of variance contained = ", sum(prin_comp.sdev[1:500,])/sum(prin_comp.sdev)))  screeplot(pr.comp, type = "lines", main = "Principal Components")  num.of.comp = 50  red.dataset <- prin_comp$x  red.dataset <- red.dataset[,1:num.of.comp]  red.dataset <- data.frame(red.dataset)  return(red.dataset)}#Perform k-fold cross validation do_cv_class <- function(df, k, classifier){  num_of_nn = gsub("[^[:digit:]]","",classifier)  classifier = gsub("[[:digit:]]","",classifier)  if(num_of_nn == "")  {    classifier = c("get_pred_",classifier)  }  else  {    classifier = c("get_pred_k",classifier)    num_of_nn = as.numeric(num_of_nn)  }  classifier = paste(classifier,collapse = "")  func_name <- classifier  output = vector()  size_distr = c()  n = nrow(df)  for(i in 1:n)  {    a = 1 + (((i-1) * n)%/%k)    b = ((i*n)%/%k)    size_distr = append(size_distr, b - a + 1)  }  row_num = 1:n  sampling = list()  for(i in 1:k)  {    s = sample(row_num,size_distr)    sampling[[i]] = s    row_num = setdiff(row_num,s)  }  prediction.df = data.frame()  outcome.list = list()  for(i in 1:k)  {    testSample = sampling[[i]]    train_set = df[-testSample,]    test_set = df[testSample,]        if(num_of_nn == "")    {      classifier = match.fun(classifier)      result = classifier(train_set,test_set)      confusion.matrix <- table(pred = result, true = test_set$label)      accuracy <- sum(diag(confusion.matrix)*100)/sum(confusion.matrix)      print(confusion.matrix)      outcome <- list(sample_ID = i, Accuracy = accuracy)      outcome.list <- rbind(outcome.list, outcome)    }    else    {      classifier = match.fun(classifier)      result = classifier(train_set,test_set)      print(class(result))      confusion.matrix <- table(pred = result, true = test_set$label)      accuracy <- sum(diag(confusion.matrix)*100)/sum(confusion.matrix)      print(confusion.matrix)      outcome <- list(sample_ID = i, Accuracy = accuracy)      outcome.list <- rbind(outcome.list, outcome)    }  }  return(outcome.list)}#Support Vector Machines with linear kernelget_pred_svm <- function(train, test){  digit.class.train <- as.factor(train$label)  train.features <- train[,-train$label]  test.features <- test[,-test$label]  svm.model <- svm(train.features, digit.class.train, cost = 10, gamma =  0.0001, kernel = "radial")  svm.pred <- predict(svm.model, test.features)  return(svm.pred)}#KNN modelget_pred_knn <- function(train,test){  digit.class.train <- as.factor(train$label)  train.features <- train[,!colnames(train) %in% "label"]  test.features <- test[,!colnames(train) %in% "label"]  knn.model <- knn(train.features, test.features, digit.class.train)  return(knn.model)}

========================================================================


回答:

将PCA视为你对数据应用的一种变换。你希望保持两点:

  1. 由于测试集模拟了“现实世界”中的情况,你会得到之前未见过的样本,因此你不能将测试集用于除评估分类器之外的任何事情。
  2. 你需要对所有样本应用相同的变换。

因此,你需要对训练集应用PCA,保留变换数据,这包括两部分信息:

  1. 你从样本中减去的均值,以便将它们中心化。
  2. 变换矩阵,即协方差矩阵的特征向量

并对测试集应用相同的变换。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注