有没有sklearn.feature_extraction.text
模块中TfidfVectorizer
函数的替代方案?我听说过fastText和GloVe,但找不到如何使用它们来向量化文本的详细解释。
编辑:我有一个称为叙述的特征,它由英文句子组成。为了将其输入任何机器学习算法,我必须将其转换为数值矩阵表示。TfIdf是一种方法。还有其他我可以尝试的方法吗?(可以是也可以不是sklearn的一部分)
回答:
你要找的是所谓的文本嵌入,例如可以参考这个。对于你的叙述特征,你希望将序列转换为向量,因此称为seq_to_vec。TfIdf只是做这件事最简单的方法之一,它会产生一个稀疏矩阵(许多分量为0)。我建议你看这里作为一个好的起点。