对具有异质变量的客户集进行聚类

我有一组客户,具有不同的属性,包括连续的、分类性的、二元的和顺序的。知道这些不同类型的属性不能应用相同的距离度量,我该如何对他们进行聚类?提前感谢您。


回答:

如前所述,daisy包是一个选项,它会根据数据类型自动选择最佳的距离度量。但我建议采用以下方法,并请求专家提供意见。

与其自动选择,不如识别并移除一些相关的变量,例如(一些示例)
皮尔逊相关系数:用于连续变量
卡方检验:用于分类变量
分类与数值变量:单向方差分析等。

在选择有用的变量子集后,考虑对分类变量进行独热编码,并可能将顺序变量转换为连续变量(或分类变量并进行独热编码)。使用不同的距离度量(如欧几里得距离、曼哈顿距离等)来测试和评估结果。这样,您将对整个聚类过程有更清晰的了解。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注