我有一些数值数据集,需要为其创建概念层次。目前,我一直通过观察数据(以及相应的折线图)手动完成这项工作。根据我的直觉,我创建了一些可以接受的层次结构。
这似乎是一项可以自动化的任务。有没有人知道是否存在一种为数值数据生成概念层次的算法?
举个例子,我有以下数据集:
Bangladesh 521Brazil 8295Burma 446China 3259Congo 2952Egypt 2162Ethiopia 333France 46037Germany 44729India 1017Indonesia 2239Iran 4600Italy 38996Japan 38457Mexico 10200Nigeria 1401Pakistan 1022Philippines 1845Russia 11807South Africa 5685Thailand 4116Turkey 10479UK 43734US 47440Vietnam 1042
我为此创建了以下层次结构:
- 最低 (< 1000)
- 低 (1000 – 2500)
- 中 (2501 – 7500)
- 高 (7501 – 30000)
- 最高 (> 30000)
回答:
也许你需要一个聚类算法?
引用自链接:
聚类分析或聚类是将一组观察结果分配到子集(称为簇)中,以便同一簇中的观察结果在某种意义上是相似的。聚类是一种无监督学习方法,是许多领域中用于统计数据分析的常用技术