我有一个数据集,包含了房屋的多个特征,包括类型、位置、卧室数量等。例如:
- 类型:公寓、半独立式住宅、独立式住宅
- 位置:(纬度,经度)对,如(40.7128° N, 74.0059° W)
- 卧室数量:1, 2, 3, 4 …
我想要预测的目标变量是房屋价格。然而,原始数据集中给出的房屋价格是价格区间,而不是数值,例如:
- 房屋价格:[0,100000), [100000,150000), [150000,200000), [200000,250000), 等等。
所以我的问题是,如果我想预测房屋价格的范围,我应该使用什么模型?简单回归模型似乎不适用,因为我们预测的是区间而不是连续的数值。
提前感谢。
回答:
我会使用价格范围的中位数并运行线性回归。在你的情况下,标签将是{50000, 125000, 175000, 225000, …}。在你得到预测价格后,只需选择它所属的范围即可。
或者,如果价格范围是固定的,你可以使用一对多的逻辑回归,尽管我确定这不是最佳方法。