电影类型聚类

我在数据挖掘领域是个初学者,想对我的电影数据集进行聚类以找出类型组。我的数据集中有86部电影,涵盖了26种不同的类型。我希望通过聚类将电影归入少数几个类型,而不是26个。例如,运行某种聚类算法后,我可能会得到4个聚类,或者任何最适合我数据集的小数量。我的数据集定义如下:M1 { G1,G2,…..G26} M2{G1,G2,…..G26},其中每个类型G1,….,G26的值可以是0或1,0表示不存在,1表示存在。下一步,我计划在这些数据上运行k-means聚类,并希望使用一个好的距离函数,例如皮尔逊相关系数。

我在MATLAB中进行实验。我尝试使用k=3,4,5,6进行k-Means聚类,同时也运行了层次聚类。

我不知道如何判断哪个聚类结果更好。如何检查这一点?作为初学者,我不知道如何在MATLAB中绘制二进制特征的聚类图。另外,我也不知道如何在k-Means中使用皮尔逊相关系数作为距离度量。请帮助我。


回答:

评估是聚类中最困难的部分。

如果你知道自己在寻找什么,就不需要进行聚类分析了。

因此,聚类没有所谓的客观“真相”。你认为什么是聚类很大程度上取决于你的个人需求,除非你将这些需求编码进自定义算法中,否则聚类算法计算的结果很可能完全不同于你的预期。

例如,k-means最小化方差。方差是否符合你对聚类的理解呢?

对于你的用例,最好的健全性检查是每个现有类型分配应该主要在一个聚类内。如果类型分配到处都是,那么聚类并没有按照你的类型概念进行聚类。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注