Home IT技术如何从数据集中修剪低频和高频词？

如何从数据集中修剪低频和高频词？

IT技术 xiaolong · 2025年4月7日 · 0 Comment

有没有什么工具可以让我从数据集中修剪掉高频和低频词？

回答：

常用于此目的的算法是Grubbs’ test。我不知道在Java中有没有实现，但如果你愿意用其他语言进行预处理，那么R语言中的outliers包就包含了Grubbs’ test。你可以通过反复应用Grubbs’ test来消除多个异常值。

编辑：

我刚刚注意到我错过了文本分类标签。如果你只是想防止过于频繁的词语扭曲你的结果，TF-IDF可能会对你有帮助。当然，这并不会减少维度。

alpha-beta-pruning machine-learning text-classification

发表回复取消回复