半监督学习的测试数据

半监督学习使用一组标记数据(L)来训练模型，以预测一组未标记数据(U)，然后将新的标记数据(L’)和原始标记数据(L)组合成完整的标记数据集。

我想问如何提取测试数据。

哪个是正确的？

如果测试数据是从(L union L’)中提取的，结果似乎不合理，因为L’中的答案可能是错误的…？

========================================================== 编辑新内容

我有另一个想法…..

3.我应该在一开始将标记数据(L)分割为训练数据(L_train)和测试数据(L_test)。

然后使用L_train来训练模型，并用它来预测一组未标记数据(U)，然后将预测结果(L’)和L_train组合起来。

接着，使用(L_train union L’)来训练模型，并在L_test上进行测试。

1、2、3中哪个是正确的？感谢您的回复。

回答：

您在L上训练分类器。您可以首先进行交叉验证来调整一些方法参数P。使用参数P从标记数据L构建模型M。然后使用模型M来标记未标记数据U。您将U中（对分配的类别有最高置信度的）示例与L合并。然后重复此过程，直到所有示例都被分类。

-编辑-

我认为最合适的方法是第三种。但我可能没有完全理解，所以我来说明一下。

您将L分割为L_train和L_test。您使用L_train训练分类器，并使用此分类器来分类U（如我上面描述的方法）。从标记的U和L_train的联合中构建一个新的分类器，并用它来分类L_test。这些分类的差异可以用于评估指标（分类准确率等）。

学技术