机器学习训练视角

我只是需要一些指导。我看到了很多方向,我想看看哪条路对我来说是最好的。所以基本上我有一个类似于这样的pandas数据框架的组(每组有4人):

Name                        Role    XP    Acumen0   Johnny Tsunami        Driver    1000      391   Michael B. Jackson    Pistol    2500      462   Bobby Zuko            Pistol    3000      503   Greg Ritcher         Lookout    200       254   Johnny Tsunami        Driver    1000      395   Michael B. Jackson    Pistol    2500      466   Bobby Zuko            Pistol    3000      507   Appa Derren          Lookout    250       308   Baby Hitsuo           Driver    950       359   Michael B. Jackson    Pistol    2500      4610  Bobby Zuko            Pistol    3000      5011  Appa Derren          Lookout    250       30

所以基本上我想训练模型基于上面的数据框架挑选出相似的组。最终目标是给它一个庞大的数据集,让它挑选出行来创建类似上面的组。也许可以优化它,以便它挑选出数值上的相似性和准确性。

最好的路线是什么?有监督还是无监督。线性…k聚类?我需要将我的研究指向哪里。采取的最佳步骤是什么?


回答:

我会采取的第一步是理解你如何想要计算上面提到的数据的相似性,这看起来相当分类。最基本的方法是运行聚类/分类算法(在你的情况下主要是无监督的)。个人而言,如果你不知道如何进行,k-means运行得相当快且准确(DBSCAN是我的最爱)。我还会进行探索性分析(自组织映射/Kohonen映射在你的情况下可能有用)来理解数据的分布情况。

你想创建组并在聚类/分类后将这些组相互比较,对吗?你还需要想出一个相似性度量,比如KL散度来进行比较。

主要问题是找到一个‘k’来聚类你的数据,但我觉得你需要尝试不同的值,你的直觉将起到重要作用!

链接:SOM:https://www.ncbi.nlm.nih.gov/pubmed/16566459DBSCAN:https://scikit-learn.org/stable/modules/clustering.html#dbscanKL散度/交叉熵损失:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注