我有两个公开可用的词嵌入,如Glove和Google Word2vec。然而,在它们的词汇表中,有太多拼写错误的词或垃圾词(例如,##AA##,adirty等)。为了避免这些词,我想提取常用词(例如,前50000个词),因为我认为相对高频的词通常是正常形式的。
所以,我想知道是否有方法在上述两个预训练的词嵌入中查找词频。如果没有,我想知道是否有一些技术可以排除这些词。
回答:
GoogleNews向量集不包含频率信息,但似乎是从最常见到最不常见的顺序排列的。因此,如果你修改加载它的代码,只加载前N个词,你应该能得到N个最常见的词。
(用于训练或处理词向量的Python gensim库在load_word2vec_format()
函数中包含了一个limit
选项。)
GLoVe可能遵循同样的惯例——查看文件中词的顺序应该能给出一个很好的判断依据。