从公开可用的词嵌入中提取更多有意义的词

我有两个公开可用的词嵌入,如Glove和Google Word2vec。然而,在它们的词汇表中,有太多拼写错误的词或垃圾词(例如,##AA##,adirty等)。为了避免这些词,我想提取常用词(例如,前50000个词),因为我认为相对高频的词通常是正常形式的。

所以,我想知道是否有方法在上述两个预训练的词嵌入中查找词频。如果没有,我想知道是否有一些技术可以排除这些词。


回答:

GoogleNews向量集不包含频率信息,但似乎是从最常见到最不常见的顺序排列的。因此,如果你修改加载它的代码,只加载前N个词,你应该能得到N个最常见的词。

(用于训练或处理词向量的Python gensim库在load_word2vec_format()函数中包含了一个limit选项。)

GLoVe可能遵循同样的惯例——查看文件中词的顺序应该能给出一个很好的判断依据。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注