我只是需要一些指导。我看到了很多方向,我想看看哪条路对我来说是最好的。所以基本上我有一个类似于这样的pandas数据框架的组(每组有4人):
Name Role XP Acumen0 Johnny Tsunami Driver 1000 391 Michael B. Jackson Pistol 2500 462 Bobby Zuko Pistol 3000 503 Greg Ritcher Lookout 200 254 Johnny Tsunami Driver 1000 395 Michael B. Jackson Pistol 2500 466 Bobby Zuko Pistol 3000 507 Appa Derren Lookout 250 308 Baby Hitsuo Driver 950 359 Michael B. Jackson Pistol 2500 4610 Bobby Zuko Pistol 3000 5011 Appa Derren Lookout 250 30
所以基本上我想训练模型基于上面的数据框架挑选出相似的组。最终目标是给它一个庞大的数据集,让它挑选出行来创建类似上面的组。也许可以优化它,以便它挑选出数值上的相似性和准确性。
最好的路线是什么?有监督还是无监督。线性…k聚类?我需要将我的研究指向哪里。采取的最佳步骤是什么?
回答:
我会采取的第一步是理解你如何想要计算上面提到的数据的相似性,这看起来相当分类。最基本的方法是运行聚类/分类算法(在你的情况下主要是无监督的)。个人而言,如果你不知道如何进行,k-means
运行得相当快且准确(DBSCAN是我的最爱)。我还会进行探索性分析(自组织映射/Kohonen映射在你的情况下可能有用)来理解数据的分布情况。
你想创建组并在聚类/分类后将这些组相互比较,对吗?你还需要想出一个相似性度量,比如KL散度来进行比较。
主要问题是找到一个‘k’来聚类你的数据,但我觉得你需要尝试不同的值,你的直觉将起到重要作用!
链接:SOM:https://www.ncbi.nlm.nih.gov/pubmed/16566459DBSCAN:https://scikit-learn.org/stable/modules/clustering.html#dbscanKL散度/交叉熵损失:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html