R: 聚类 – 如何预测新病例？

我有一组150名患者的数据，包含4000个（连续型）预测变量。首先，需要识别与生存相关的变量。因此，我使用多重检验程序函数（http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html），结合Cox比例风险生存模型中回归系数的t统计量来识别显著的预测变量。这项分析识别出60个与生存显著相关的参数。接着，我使用ConensusClusterPlus包（https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html）进行无监督的k-means聚类，根据CDF曲线和进展图确定3个聚类为最佳解决方案。如果我随后进行Kaplan-Meier生存分析，我发现这三个聚类各自与不同的生存模式相关（低/中/长生存）。

现在我的问题是：假设我有另外一组50名患者，我想预测每位患者最可能属于哪一个聚类。我该如何实现这一点？我是否需要训练一个分类器（例如，使用caret包（topepo.github.io/caret/bytag.html），其中150名患者和60个显著参数作为训练集，算法知道每位患者被分配到哪一个聚类），并在50名新患者中验证分类器？然后进行Kaplan-Meier生存分析，看看验证集中预测的聚类（n=50）是否再次与不同的生存模式相关？

感谢您的帮助。

回答：

答案其实简单得多。你已经有了k-means聚类，包含3个聚类。每个聚类由其质心（在你的60维空间中的一个点）来识别。为了“分类”新点，你只需测量到这三个质心的欧几里得距离，并选择距离最近的聚类。这就是全部了。这直接源于k-means为整个空间提供了分区，而不仅仅是你的训练集。

学技术

R: 聚类 – 如何预测新病例？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复