什么是Python中的聚类、异质性和距离?

我在观看麻省理工学院开放课程6.0002的聚类视频,但对其中的一些代码不太理解。

这是什么 .Cluster

for e in initialCentroids:        clusters.append(cluster.Cluster([e]))

这是什么 .distance

  for e in examples:            smallestDistance = e.distance(clusters[0].getCentroid())

这是什么 .dissimilarity

 minDissimilarity = cluster.dissimilarity(best)

从代码中我能理解他们在做什么,但我希望能得到更多详细信息。相关的文档将非常受欢迎!


回答:

这些术语主要用于描述数据及其之间的关系。我们从聚类开始讲起。

Cluster 是一组可能在某种意义上具有相似特征的观测数据点。聚类主要是一种无监督学习的方法。为了便于理解,可以想象地图是一组聚类,按国籍对人们进行分组,但在机器学习中,人们可能会分散到其他国家——这在某种程度上是正常的。

如果我们将 distance 视为聚类之间的距离,这个术语指的是聚类1的中心与聚类2的中心之间的距离。该术语也可能指给定点,通过测量该点到所有聚类中心的距离——该点将属于距离最小的聚类。

此外,dissimilarity 描述的值与距离非常相似,它表明数据点与原始中心的相似程度不高。这意味着,一旦距离较高,不相似性也会较高,我个人认为是这样——但对此不是很确定。

希望这些对你有帮助。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注