KMeans的不平衡因子？

编辑：这个问题在以下链接中有详细讨论：Sum in Spark gone bad

在Compute Cost of Kmeans中，我们了解了如何计算KMeans模型的成本。我在想我们是否能够计算不平衡因子？

如果Spark没有提供这种功能，有没有简单的方法来实现这个功能？

我没有找到关于不平衡因子的参考资料，但它应该类似于Yael的unbalanced_factor（我的评论）：

// @hist: 分配到一个集群的点的数量// @n:    集群的数量double ivec_unbalanced_factor(const int *hist, long n) {  int vw;  double tot = 0, uf = 0;  for (vw = 0 ; vw < n ; vw++) {    tot += hist[vw];    uf += hist[vw] * (double) hist[vw];  }  uf = uf * n / (tot * tot);  return uf;}

我是在这里找到的。

所以这个想法是，tot（总数）将等于分配到集群的点的数量（即等于我们的数据集大小），而uf（不平衡因子）保存分配到一个集群的点的数量的平方。

最后，他使用uf = uf * n / (tot * tot);来计算它。

回答：

在python中，它可能是这样的：

# 我假设你传递的是一个元组的RDD，其中键是集群，值是包含特征的向量。def unbalancedFactor(rdd):  pdd = rdd.map(lambda x: (x[0], 1)).reduceByKey(lambda a, b: a + b) # 你可以得到每个集群的点的数量  n = pdd.count()  total = pdd.map(lambda x: x[1]).sum()   uf = pdd.map(lambda x: x[1] * float(x[1])).sum()  return uf * n / (total * total)

学技术

KMeans的不平衡因子？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复