我应该使用哪种机器学习模型?

我目前正在为一个学生项目制作一个机器学习模型,我还在决定应该使用哪种模型。以下是我收到的简要说明:

全球恐怖主义数据库(GTD)是一个开放源代码数据库,包含了1970年至2014年世界各地恐怖事件的信息。部分袭击尚未归因于特定恐怖组织。使用袭击类型、使用的武器、袭击描述等,构建一个模型,可以预测哪个组织可能对某一事件负责。

数据框架包括:

  • 134列,约10万行
  • 许多列有缺失值
  • 我只有5天的时间提交最终作品,因此无法长时间训练模型

我倾向于使用反向传播神经网络,因为我认为它可以处理缺失值,尽管考虑到我有限的训练时间,随机森林也可能是一个可行的选择。我已经对常见机器学习模型的各种优缺点进行了大量研究,但任何额外的建议将不胜感激。


回答:

如果你尝试了几种候选方法并描述了它们为何不足,这个问题会更容易回答,但这里有一个起点… 如果你没有电脑,有人给你这张表并要求你定性描述恐怖主义是如何运作的,你可能会很快注意到,比如,爱尔兰共和军不在阿富汗活动,只有ISIS参与了杀害超过1000人的袭击(我们假设)。这种观察类似于随机森林如何分别处理分类和连续数据的方式。

关键是,当试图定性描述像这样的数据背后的基本现实时,你的大脑会倾向于使用随机森林。(多个分支看起来像是… 美国在1991年前没有恐怖主义活动,而1991年后美国的大多数恐怖袭击都涉及X、Y和Z组织——依此类推)由此得出的推论是,你将有很多话要说关于你训练的随机森林告诉了你什么,它在哪里失败,以及它在哪里失败的原因。

如果你使用神经网络,在不了解其工作细节的情况下,你可能会盲目地调整参数,直到似乎有效,并且不知道它在各种情况下的表现如何,或者哪些特征是有用的。

为什么不使用随机森林,找出它在哪里有效和无效,思考这个结果,然后在此基础上迭代呢?

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注