我的分类器在所有测试数据集上（除了错误的照片）都给出了1.0的准确率

现有情况:

数据集：115张彩色图像，尺寸为256×256，所有照片属于一个类别（卡通人物）。
分类器：KNN和随机森林分类器。

评论：我想制作一个分类器来预测一张照片上的一个卡通人物，所以我收集了一个数据集，对其进行了数字化处理，并将其放入分类器的fit方法中。起初，我选择了SGDClassifier，但它只适用于数据集中有两个或更多类别的情况。因此，我随后选择了KNN和随机森林分类器。

问题： 当我尝试测试我的准备好的分类器时，我在每张照片上都得到了1.0的分数（我测试了一个对象、另一个对象（另一个卡通人物）和一张黑屏的照片），它们都无论如何都得到了1.0的分数。

请问有人能帮帮我吗？:( 我已经在这个问题上卡了两天了，找不到解决办法，我查看了很多解决方案，但没有一个在我的情况下有效。

数据集：

我的数据集numpy数组的形状是(115, 196608)，例如，数据集numpy数组中的一张图像看起来是这样的：

数据集是一个二维数组，因为分类器只接受一维或二维数组。

代码: 这不是完整的代码，只是示例

train_data_values = numpy.array([*115 photos*])train_data_labels = numpy.array([*115 labels*])# 实际上，我所有的标签都等于"1"，没有其他值。# 尝试KNNfrom sklearn.neighbors import KNeighborsClassifierKNN_clf = KNeighborsClassifier(**{'n_neighbors': 16, 'weights': 'distance'})KNN_clf.fit(train_data_values, train_data_labels)test_im = cv2.imread(DATASET_IMAGES_DIRECTORY + "\\test\\" + "test2.png")KNN_clf.predict_proba(test_im.reshape(1, 3*256*256)) # Returns array([[1.]])# 尝试随机森林分类器from sklearn.ensemble import RandomForestClassifierRF_clf = RandomForestClassifier()RF_clf.fit(train_data_values, train_data_labels)test_im = cv2.imread(DATASET_IMAGES_DIRECTORY + "\\test\\" + "test.png")RF_clf.predict_proba(test_im.reshape(1, 3*256*256)) # Returns array([[1.]])

评论: 我查看了我numpy数据集中的图像，因为我认为它们可能数字化得不好，但不是，它们可以很容易地从数组构建成图像。

P.S. KNN分类器的参数是随机的，因为我一直在尝试使用网格搜索寻找最佳参数，但再次得到了1.0的分数。

回答：

所有分类器都会从它们的训练数据中学习它们的分数。大多数分类器的分数（包括随机森林和KNN）具有概率意义：它们被调整以尽可能反映训练数据的概率分布。

因此，如果你的训练数据100%属于单一类别，那么分类器将学会任何样本都以100%的概率属于这个类别，并会以绝对的信心预测这个类别。

教训是：要使用任何分类器，你至少需要两个类别，否则预测将或多或少毫无意义。我的建议是添加负样本，即不包含你的目标人物的样本，包括：

其他卡通和你的卡通中其他人物的图像
只有背景且没有人物的图像
一些非动画对象的图像

有一些例外，例如OneClassSVM，据推测，它们在仅训练一个类别的情况下能够产生有意义的分数。但它们是否能在你的数据上正常工作，除非你用来自多个不同类别的数据进行测试，否则你永远不会知道。

学技术

我的分类器在所有测试数据集上（除了错误的照片）都给出了1.0的准确率

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复