我有一个自行车租赁数据集。在这个数据集中,我们的目标变量是Count,即自行车租赁的总数,这是数据集中两个变量之和,即临时用户数量变量和注册用户数量变量。所以我的问题是,我应该如何对这个数据集进行建模?我在考虑是否应该删除临时用户和注册用户变量,只保留Count变量作为我们的目标变量,并结合其他预测变量。请给出建议。
回答:
这个问题相当模糊,但我会尝试回答它。
我不太确定你想要预测什么。假设你想预测未来某个时间点将被租出的自行车数量。
如果临时用户和注册用户之间的区别对你的项目目的很重要且具有重大意义,那么你可能应该将它们视为不同的特征,而不是将它们合并为一个。
相反,如果这种区别不重要,你只关心自行车的总数量,那么你可以将它们合并并使用总和。
我认为你应该试着理解你试图实现什么,以及你希望通过分析回答哪些问题。