我正在分析一个包含15个变量和150万个数据点的医学数据集。我想预测住院情况,更重要的是,哪种药物可能导致这种情况。药物变量大约有700种药物。有谁知道如何计算变量中“值”(在这种情况下是药物类型)对提升算法的重要性吗?我需要知道在名为‘medicine’的变量中,‘药物A’是否比‘药物B’更适合预测。逻辑回归模型能够为每种药物提供p值来提供此类信息,但我希望使用更复杂的方法。当然,您可以为每种药物创建一个二进制变量,但这会增加700个额外变量,并且似乎效果不佳。我目前使用的是R语言。我非常希望您能帮助我解决这个问题。提前感谢!此致敬礼 彼得
回答:
请查看caret
库中的varImp()
,它支持您提到的所有机器学习算法。