我应该使用哪种机器学习模型？

我目前正在为一个学生项目制作一个机器学习模型，我还在决定应该使用哪种模型。以下是我收到的简要说明：

全球恐怖主义数据库（GTD）是一个开放源代码数据库，包含了1970年至2014年世界各地恐怖事件的信息。部分袭击尚未归因于特定恐怖组织。使用袭击类型、使用的武器、袭击描述等，构建一个模型，可以预测哪个组织可能对某一事件负责。

数据框架包括：

134列，约10万行
许多列有缺失值
我只有5天的时间提交最终作品，因此无法长时间训练模型

我倾向于使用反向传播神经网络，因为我认为它可以处理缺失值，尽管考虑到我有限的训练时间，随机森林也可能是一个可行的选择。我已经对常见机器学习模型的各种优缺点进行了大量研究，但任何额外的建议将不胜感激。

回答：

如果你尝试了几种候选方法并描述了它们为何不足，这个问题会更容易回答，但这里有一个起点… 如果你没有电脑，有人给你这张表并要求你定性描述恐怖主义是如何运作的，你可能会很快注意到，比如，爱尔兰共和军不在阿富汗活动，只有ISIS参与了杀害超过1000人的袭击（我们假设）。这种观察类似于随机森林如何分别处理分类和连续数据的方式。

关键是，当试图定性描述像这样的数据背后的基本现实时，你的大脑会倾向于使用随机森林。（多个分支看起来像是… 美国在1991年前没有恐怖主义活动，而1991年后美国的大多数恐怖袭击都涉及X、Y和Z组织——依此类推）由此得出的推论是，你将有很多话要说关于你训练的随机森林告诉了你什么，它在哪里失败，以及它在哪里失败的原因。

如果你使用神经网络，在不了解其工作细节的情况下，你可能会盲目地调整参数，直到似乎有效，并且不知道它在各种情况下的表现如何，或者哪些特征是有用的。

为什么不使用随机森林，找出它在哪里有效和无效，思考这个结果，然后在此基础上迭代呢？

学技术

我应该使用哪种机器学习模型？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复