我有一张Excel表格,包含两列:
- 词语 2. 语言
每行只有一个词语,并且直接关联到一种语言
如何将这些词语和语言格式化为机器学习可以接受的数据格式?
我在使用scikit-learn,并考虑过使用词袋模型,但对我来说,每个词的索引似乎无法传达每个词的特性。
回答:
从你的问题来看,我认为你在询问如何从词语中提取特征,以便用于训练一个分类器来确定词语的语言。我认为可以从词的长度和词中的字符二元组开始作为好的特征。请查看这篇文章来了解如何提取字符二元组。此外,可能适合使用NLTK分类器。例如,
from nltk.classify import NaiveBayesClassifier
nb = NaiveBayesClassifier.train(train_set)
其中train_set
应该是一个由(features, label)
形式的元组组成的列表,其中features
是一个dict
,形式为{feature_name: feature_value}
。