我已经将大约40000个点聚类成了79个簇。每个点都是一个包含18个特征的向量。我想“推导”出每个簇的特征——这些簇的主要特征/特性。有没有机器学习算法可以做到这一点?
回答:
如果你确信这些簇对你的特定需求是有意义的,你可以将其视为一个分类问题。
一个选项是应用特征选择算法来对特征进行排序。你可以使用递归特征消除来识别一组对簇标签具有预测能力的特征。
另一个解释这些簇的好方法是构建决策树。使用决策树,你可以看到哪些特征被用来最好地区分类别(在你的例子中是簇)。你也可以使用像随机森林这样的集成方法,并请求特征重要性得分。