我目前正在为一个学生项目制作一个机器学习模型,我还在决定应该使用哪种模型。以下是我收到的简要说明:
全球恐怖主义数据库(GTD)是一个开放源代码数据库,包含了1970年至2014年世界各地恐怖事件的信息。部分袭击尚未归因于特定恐怖组织。使用袭击类型、使用的武器、袭击描述等,构建一个模型,可以预测哪个组织可能对某一事件负责。
数据框架包括:
- 134列,约10万行
- 许多列有缺失值
- 我只有5天的时间提交最终作品,因此无法长时间训练模型
我倾向于使用反向传播神经网络,因为我认为它可以处理缺失值,尽管考虑到我有限的训练时间,随机森林也可能是一个可行的选择。我已经对常见机器学习模型的各种优缺点进行了大量研究,但任何额外的建议将不胜感激。
回答:
如果你尝试了几种候选方法并描述了它们为何不足,这个问题会更容易回答,但这里有一个起点… 如果你没有电脑,有人给你这张表并要求你定性描述恐怖主义是如何运作的,你可能会很快注意到,比如,爱尔兰共和军不在阿富汗活动,只有ISIS参与了杀害超过1000人的袭击(我们假设)。这种观察类似于随机森林如何分别处理分类和连续数据的方式。
关键是,当试图定性描述像这样的数据背后的基本现实时,你的大脑会倾向于使用随机森林。(多个分支看起来像是… 美国在1991年前没有恐怖主义活动,而1991年后美国的大多数恐怖袭击都涉及X、Y和Z组织——依此类推)由此得出的推论是,你将有很多话要说关于你训练的随机森林告诉了你什么,它在哪里失败,以及它在哪里失败的原因。
如果你使用神经网络,在不了解其工作细节的情况下,你可能会盲目地调整参数,直到似乎有效,并且不知道它在各种情况下的表现如何,或者哪些特征是有用的。
为什么不使用随机森林,找出它在哪里有效和无效,思考这个结果,然后在此基础上迭代呢?