我想学习一个决策树,其目标属性是合理的离散属性,有5个可能的不同值。然而,存在一些离散的高基数输入属性(可能有数千种不同的字符串值),我不知道是否有必要将它们包含进来。是否有关于在训练决策树时包含属性的最大基数的政策?
回答:
没有最大基数的限制。当然,你可以省略数据中实际未出现的值。
你需要使用一个能够直接处理多标签分类特征的RDF实现,而不是将其转换为一系列二进制指示特征。
对于具有N个值的分类特征,特征上的可能决策规则有2^N – 2个,这个数量实在是太多了。我使用的一个启发式方法是,当你根据N个分类特征值划分数据时,计算目标的熵。然后按熵对值进行排序,并评估你通过考虑该列表的前缀得到的N-2个规则。