有没有什么工具可以让我从数据集中修剪掉高频和低频词?
回答:
常用于此目的的算法是Grubbs’ test。我不知道在Java中有没有实现,但如果你愿意用其他语言进行预处理,那么R语言中的outliers包就包含了Grubbs’ test。你可以通过反复应用Grubbs’ test来消除多个异常值。
编辑:
我刚刚注意到我错过了文本分类标签。如果你只是想防止过于频繁的词语扭曲你的结果,TF-IDF可能会对你有帮助。当然,这并不会减少维度。
有没有什么工具可以让我从数据集中修剪掉高频和低频词?
回答:
常用于此目的的算法是Grubbs’ test。我不知道在Java中有没有实现,但如果你愿意用其他语言进行预处理,那么R语言中的outliers包就包含了Grubbs’ test。你可以通过反复应用Grubbs’ test来消除多个异常值。
编辑:
我刚刚注意到我错过了文本分类标签。如果你只是想防止过于频繁的词语扭曲你的结果,TF-IDF可能会对你有帮助。当然,这并不会减少维度。