我使用H2O中的DRF进行了二元分类。我已经得到了特征的重要性,然后我被要求找出每个特征的标准。
例如:我需要对用户进行分类,决定哪些用户被接受,哪些被拒绝,特征包括年龄、薪水、工作经验、居住城市(当然已经解码)。因此,我的上司想知道哪些年龄范围的用户倾向于被拒绝或接受,哪些薪水范围,哪些城市的用户倾向于被拒绝或接受。
我认为我想要的输出可能会是这样的:
接受用户的薪水倾向 = 10k - 50k
接受用户的薪水倾向 = 5k - 30k
接受用户的年龄倾向 = 18 - 55
拒绝用户的年龄倾向 = 31 - 35
接受用户的城市倾向 = 1, 5, 10, 23
拒绝用户的城市倾向 = 3, 4, 12, 36
依此类推..
如何实现这一点?
附注:我有一份被接受用户的列表。
回答:
我想你需要的是部分依赖图(Partial Dependency Plots)。这里有一个在H2O中的例子:https://rdrr.io/cran/h2o/man/h2o.partialPlot.html
PDP将展示目标概率如何依赖于某个变量的值。