对构建机器学习模型的概念和步骤有一定的理解,涵盖以下方面 –
- 理解并分类问题为 – 监督学习或无监督学习,回归或分类或聚类等。
-
特征设计,即考虑的特征/输入参数
-
将数据分割成训练集和测试集。(交叉验证是这里的另一个重要概念。)
- 比较各种模型(如KNN,SVM,随机森林等),并了解哪个表现更好。基本上,交叉验证分数并了解预测能力。
疑问::
如何将新数据输入到机器学习中以保持其更新和更好的预测?
回答:
-
无需最终确定,一旦获得新数据,您可以使用所有相关数据重新训练模型,或者更新您的模型(例如,对于线性回归,可以进行另一次梯度下降迭代)。
-
如果是相关数据,即来自相同分布的数据,它不应该“损害”模型。
-
这本质上与#1相同。具体细节取决于模型。有些模型您只需使用所有相关数据重新训练。有些模型您可以仅用新数据进行更新。