我有一组客户,具有不同的属性,包括连续的、分类性的、二元的和顺序的。知道这些不同类型的属性不能应用相同的距离度量,我该如何对他们进行聚类?提前感谢您。
回答:
如前所述,daisy包是一个选项,它会根据数据类型自动选择最佳的距离度量。但我建议采用以下方法,并请求专家提供意见。
与其自动选择,不如识别并移除一些相关的变量,例如(一些示例)
皮尔逊相关系数:用于连续变量
卡方检验:用于分类变量
分类与数值变量:单向方差分析等。
在选择有用的变量子集后,考虑对分类变量进行独热编码,并可能将顺序变量转换为连续变量(或分类变量并进行独热编码)。使用不同的距离度量(如欧几里得距离、曼哈顿距离等)来测试和评估结果。这样,您将对整个聚类过程有更清晰的了解。