什么是classify(LDA)函数的作用？

我正在研究机器学习，并以LDA作为起点。我正在按照MatLab自己的LDA分类教程进行学习（在此）。

他们使用的是fisheriris数据集，这个数据集在Matlab中已经可用，可以直接加载。在教程中，他们使用以下代码进行分类：

ldaClass = classify(meas(:,1:2),meas(:,1:2),species);

我知道的是：

classify函数基于训练数据和标签（第二个和第三个参数）训练分类器，并将分类器应用于测试数据（第一个参数），ldaClass给出基于训练数据点和标签训练的分类器为测试数据点选择的类别

那么，用于训练的相同数据也用于测试了吗？

我对监督学习的理解是，一旦系统用训练集训练后，就应该用未知样本进行测试，以测试其预测能力。如果给它一个来自训练集的测试样本，它应该能够正确分类，对吗？

那么，为什么在classify中，当使用相同的样本进行训练和测试时，它会错误分类20%的标签呢？

要么LDA是一个非常差的分类器，要么我没有完全理解这里的概念。请帮帮我。

回答：

你说的对，在现实世界中，最佳做法是用一个样本训练分类器，并用另一个样本进行评估——而且如果你在训练样本上评估分类器，那会给你一个有偏差的（过于乐观的）分类器准确率估计。

然而，你正在阅读一个教程，这个教程试图教你使用classify时的正确语法，而不是试图教你统计学习的最佳实践。请注意，教程在这方面相当明确——它强调它计算的错误率是重新代入错误率（即在训练样本上计算的过于乐观的错误率）。

但你假设每当你在训练过的样本上评估分类器时，它都能正确分类所有样本，这是不正确的；这完全不是真的。在这种情况下，两个类别有显著的重叠，分类器无法完全分离它们，这导致了20%的错误。

这并不意味着LDA是一个差的分类器；这意味着它是一个简单的模型，无法找到完全分离两个重叠类别的曲折和转折。简单的模型在数据有复杂关系时表现不佳；当关系简单时，或者当关系复杂但数据噪声足够大，以至于复杂模型会拟合到噪声而不是复杂关系时，简单的模型表现良好。

学技术