背景: 我正在进行健康保险索赔的二元分类工作。我处理的数据大约有100万行,包括数值特征和类别特征(所有类别特征都是名义离散的)。我面临的问题是我的几个类别特征具有高基数,包含许多非常罕见或独特的值。我已经绘制了以下8个类别特征,这些特征具有最高的唯一因子级别计数:
虚拟变量的替代方案: 我一直在阅读关于特征哈希的内容,并了解到这种方法是一种快速且空间高效的特征向量化方法,特别适合处理高基数的类别数据。我计划使用Scikit Learn的FeatureHasher对超过100个唯一特征级别的类别特征进行特征哈希(对于少于100个唯一特征级别的剩余类别特征,我将创建虚拟变量)。在我实施之前,我有一些关于特征哈希的问题,以及它如何影响机器学习中的模型性能:
-
与仅对最常出现的因子级别进行虚拟化相比,使用特征哈希的主要优势是什么?我假设特征哈希方法的信息损失较少,但需要更多关于哈希在处理高基数时为机器学习算法提供的优势的澄清。
-
我对在评估几个独立的分类模型后评估特征重要性感兴趣。有没有办法在与原始类别级别相关联的背景下评估哈希特征?有没有办法逆转哈希,还是特征哈希不可避免地导致模型可解释性的损失?
抱歉发了这么长的帖子和问题。任何反馈/建议将不胜感激!
回答:
-
特征哈希可以在推理过程中支持训练时未见过的新类别。使用虚拟编码时,只能编码一组固定的先前见过的类别。如果遇到训练中未见过的类别,那就无能为力了。
-
对于特征重要性,有两种经典方法。
a) 带和不带每个特征训练/评估你的模型,以查看其效果。这可能在计算上是昂贵的。
b) 带有该特征以及该特征在所有样本中被打乱的训练/评估你的模型。
对于特征哈希,每个特征扩展到多个列,因此b) 将会很棘手,我还没有找到任何包可以对特征哈希列进行置换重要性分析。
因此,我认为考虑到你只有100万行,a) 可能是你最好的选择。
另外,你可能会在Cross Validated上获得更好的答案,对于stackoverflow上的机器学习问题。