如何为一个给定的问题找到最佳的学习规则,比如多类别分类?
我曾考虑使用遗传算法,但知道在性能方面存在一些问题。我正在寻找实际案例,在这些案例中你没有使用教科书上的学习规则,以及你是如何找到这些学习规则的。
回答:
顺便说一句,这是一个很好的问题。
分类算法可以根据许多特性进行分类,例如:
- 算法强烈偏好什么(或最适合这种算法的数据类型)。
- 训练开销。(训练是否需要很多时间)
- 何时有效。(大数据 – 中等数据 – 小数据)
- 它可以提供的分析复杂度。
因此,对于你的问题多类别分类,我会使用在线逻辑回归(来自SGD),因为它非常适合小到中等的数据大小(少于数千万的训练样本),而且速度非常快。
另一个例子:
假设你需要对大量文本数据进行分类,那么朴素贝叶斯就是你的选择。因为它强烈偏好文本分析。尽管SVM和SGD更快,并且如我所经历的更容易训练。但这些规则“SVM和SGD”只能在数据规模被认为是中等或小的时候应用,而不能用于大数据。
一般来说,任何数据挖掘人员在开始任何机器学习或简单的挖掘项目时,都会问自己上述四个问题。
之后,你需要测量其AUC,或任何相关的指标,以查看你的成果。因为你可能在一个项目中使用不止一个分类器。或者有时当你认为你已经找到了完美的分类器时,使用一些测量技术后结果却不理想。所以你会重新检查你的问题,找出你犯错的地方。
希望我能帮到你。