我正在处理一个机器学习问题。目标是预测客户是否会签署合同,以及他们需要多长时间来签署合同。
这是我计划的处理方法:1- 训练第一个模型进行分类预测,预测正例。2- 仅针对实际签署合同的客户的训练样本,训练第二个回归模型,并预测他们的响应时间。3- 使用第一个模型,预测正类。4- 使用第二个模型,仅基于那些被预测为正的样本,预测时间目标。
请问我的方法是否正确,我是否引入了任何偏见?处理此类问题是否有已知的方法?
非常感谢。
回答:
我认为你的方法是正确的,因为对于那些没有签署合同的人来说,包含他们的签署时间是没有意义的。实际上,如果你将他们包括在回归模型中,你甚至无法为他们分配任何有意义的目标值。例如,如果你为他们分配零作为签署时间,这意味着他们比实际签署合同的人还要急切,这是荒谬的。如果你为他们分配一个较大的值,你的模型会不必要地强调他们,导致性能不佳。