无偏聚类标签预测

我对评估通过无监督聚类发现的聚类标签的可预测性感兴趣。假设我有一个由患者组成的数据集,我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了4个聚类。现在,我想了解这种聚类成员身份是否可以从表达数据中预测出来。使用全数据无监督聚类标签作为输出变量,我以交叉验证的方式训练一个监督分类器。因此,我使用80%的数据进行训练,并评估其余20%的数据的准确性。

这种方法是否有偏见,因为输出聚类标签是从全数据中学习的?如果有偏见,我该如何以无偏见的方式进行?如果我以交叉验证的方式进行聚类,我想我需要手动关联每个不同折叠之间的聚类。由于我特别对四个聚类中的一个与其他聚类的可预测性感兴趣,我需要通过某种手动分析找出在数据的每个折叠聚类中这是哪个聚类。


回答:

坦白说,整个问题似乎是不正确的。如果你有一个算法(聚类技术)构建了一些数据分区,那么它总是可以通过监督方法预测的。事实上,在了解所使用的聚类家族的情况下,可以提出一个完美的分类器(几乎100%的准确性)。你应该重新思考问题陈述。特别是,每个聚类技术都可以通过添加一些约束(哪些元素必须放在同一个聚类中)转化为分类器。因此,如果你使用聚类器C,那么你可以简单地将C转化为半监督方法,该方法必须根据给定的标签对训练集中获得的元素进行聚类。这样,我们几乎总是会创建相同的标签,从而达到100%的准确性。

唯一能够创建有效假设的方法是由某个专家分配这些标签,因为这样我们就无法构建一个“带有约束的专家”的分类器。因此,上述推理将失败。换句话说,如果你想测试某种标签是否可以通过监督方式预测,你需要以一种难以建模的方式获得这些标签(例如人类专家、自然、物理、实验、昂贵的数值评估),而不是像聚类模型这样简单的东西,因为监督学习的整个意义在于找到这种潜在模型。如果这个模型事先已知(不是对算法本身,而是对我们而言),那么整个推理就是不正确的。你只会回答以下问题:

所选聚类技术分析的模型家族是否与所用分类器的假设空间家族相似。

或者更正式地说

所使用的分类器是否与在所考虑的数据集上运行的选定聚类算法诱导的分布一致。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注