我有一张表,表中包含用于构建某个模型的特征,该模型用于预测用户是否会购买新保险。在同一张表中,我还有该模型预测的属于类别1(会购买)和类别0(不会购买)的概率。我不知道构建该模型使用了何种算法。我只知道它的预测概率。
问题:如何识别哪些特征影响这些预测结果?我是否需要构建相关矩阵或进行任何测试?
表格示例:
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+| user_id | age | car_price | car_age | income | education | gender | crashes | probability | true_labes |+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+| 1 | 29 | 15600 | 3 | 20000 | 3 | 1 | 1 | 0.23 | 0 |+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+| 2 | 41 | 43000 | 1 | 65000 | 2 | 0 | 1 | 0.1 | 0 |+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+| 3 | 39 | 23500 | 5 | 43000 | 3 | 1 | 0 | 0.46 | 1 |+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+| 4 | 19 | 12200 | 3 | 13000 | 1 | 1 | 0 | 0.34 | 1 |+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+| 5 | 68 | 21900 | 2 | 31300 | 3 | 0 | 1 | 0.85 | 1 |+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
回答:
你可以构建一个像这个的模型。
x = 你拥有的特征。y = true_lable
从中你可以提取特征的重要性。此外,如果你想更进一步,你可以进行自助法,这样特征的重要性会更加稳定(统计学上)。