KMeans如何用于断言数据集存在噪声?

我在阅读一篇旧论文的摘录时偶然发现,

如果需要,我们可以使用KMeans方法来断言这个数据集是嘈杂的,从而证明我们的分类器在合理预期范围内工作良好。

我在网上搜索解决方案后,没有找到任何关于这种方法的提及。这该如何实现?如何将这个通用的KMeans代码调整以断言这个数据集包含噪声?

代码摘自这里

print(__doc__)# Code source: Gael Varoqueux# Modified for Documentation merge by Jaques Grobler# License: BSD 3 clauseimport numpy as npimport pylab as plfrom mpl_toolkits.mplot3d import Axes3Dfrom sklearn.cluster import KMeansfrom sklearn import datasetsnp.random.seed(5)centers = [[1, 1], [-1, -1], [1, -1]]iris = datasets.load_iris()X = iris.datay = iris.targetestimators = {'k_means_iris_3': KMeans(n_clusters=3),              'k_means_iris_8': KMeans(n_clusters=8),              'k_means_iris_bad_init': KMeans(n_clusters=3, n_init=1,                                              init='random')}fignum = 1for name, est in estimators.iteritems():    fig = pl.figure(fignum, figsize=(4, 3))    pl.clf()    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)    pl.cla()    est.fit(X)    labels = est.labels_    ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))    ax.w_xaxis.set_ticklabels([])    ax.w_yaxis.set_ticklabels([])    ax.w_zaxis.set_ticklabels([])    ax.set_xlabel('Petal width')    ax.set_ylabel('Sepal length')    ax.set_zlabel('Petal length')    fignum = fignum + 1# Plot the ground truthfig = pl.figure(fignum, figsize=(4, 3))pl.clf()ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)pl.cla()for name, label in [('Setosa', 0),                    ('Versicolour', 1),                    ('Virginica', 2)]:    ax.text3D(X[y == label, 3].mean(),              X[y == label, 0].mean() + 1.5,              X[y == label, 2].mean(), name,              horizontalalignment='center',              bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))# Reorder the labels to have colors matching the cluster resultsy = np.choose(y, [1, 2, 0]).astype(np.float)ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)ax.w_xaxis.set_ticklabels([])ax.w_yaxis.set_ticklabels([])ax.w_zaxis.set_ticklabels([])ax.set_xlabel('Petal width')ax.set_ylabel('Sepal length')ax.set_zlabel('Petal length')pl.show()

回答:

K-means聚类的本质是将一组多维向量划分为紧密分组的分区,然后用单个向量(即质心)来表示每个分区(也称为聚类)。一旦完成这一步,你就可以计算拟合优度,即所得质心对原始向量集的代表性如何。这个拟合优度将取决于所选择的聚类/质心数量、所使用的训练算法(例如LBG算法)、选择初始质心的方法、用于计算向量之间距离的度量…当然,还取决于你的数据(多维向量)的统计特性。

在进行聚类后,你可以使用拟合优度(或量化失真)对数据进行一些判断。例如,如果你有两个不同的数据集,在保持所有其他因素(特别是聚类数量)相同的情况下,得到两个显著不同的拟合优度值,你可以说拟合优度较差的那组数据更“复杂”,可能更“嘈杂”。我把这些判断放在引号中,因为它们是主观的(例如,你如何定义嘈杂?),并且受到你的训练算法和其他因素的强烈影响等。

另一个例子可以是使用“干净”的数据集训练一个聚类模型。然后,使用相同的模型(即相同的质心)对新的数据集进行聚类。根据新数据集的拟合优度与原始干净训练数据集的拟合优度之间的差异,你可以对新数据集中的“噪声”做出一些判断。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注