如何选择适合数据的模型？

我的问题是，给定一个特定的数据集和一个二元分类任务，有没有一种方法可以选择一种可能最有效的模型类型？例如，考虑一下 kaggle 上的泰坦尼克号数据集：https://www.kaggle.com/c/titanic。仅仅通过分析图表和图形，是否有任何一般性的经验法则来选择随机森林、KNN 还是神经网络，或者我只需要测试它们，然后选择性能最好的一个？

注意：我不是在谈论图像数据，因为对于那些数据，卷积神经网络显然是最好的选择。

回答：

不，你需要测试不同的模型来看看它们的表现。根据论文和 kaggle 的数据，表现最好的算法似乎是提升算法，如 XGBoost、LightGBM、AdaBoost，或者所有这些算法的组合，或者只是随机森林。但在某些情况下，逻辑回归可能会超过它们。所以试试它们所有。如果数据集大于10万，你不会浪费太多时间，而且你可能会学到一些关于数据的有价值的东西。

学技术

如何选择适合数据的模型？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复