我的目标是使用Azure机器学习,根据一个人的年龄来预测他们会选择哪种抵押贷款类型。
请注意,我有220,000行数据。虽然有多种抵押贷款类型,但购买、再抵押和买房出租在数据中占主导地位。数据的典型横截面可能是:
- 20岁,购买
- 30岁,购买
- 30岁,再抵押
- 40岁,再抵押
- 55岁,买房出租
- 55岁,房屋净值释放
我的Azure机器学习实验如下所示。我对元数据的编辑包括将抵押贷款类型列更改为标签,将年龄更改为整数。我还尝试了将它们设置为分类/非分类数据。
这是否意味着我只能以60%的置信度预测买房出租和购买?我这样做正确吗?还有其他方法可以实现我的目标吗?
回答:
AzureML显示的图表称为混淆矩阵。在你的情况下,应该这样解释:
对于每一笔实际为桥接抵押贷款的抵押贷款,模型有64.7%的几率预测为买房出租抵押贷款,17.6%的几率预测为购买抵押贷款,以及17.6%的几率预测为再抵押贷款。
你的模型只会预测选择的抵押贷款为买房出租、购买或再抵押。这可能是因为你仅使用年龄作为特征,这不能为模型提供很多信息。考虑添加更多的特征到你的模型中,以增强其预测能力。