我想知道是否有办法使用Python和Sklearn机器学习库,根据文本中的词语将文本数据分类到不同的组别/类别中?
例如:
text = [["request approval for access", "request approval to enter premises", "Laptop not working"], ["completed bw table loading"]]
那么我能得到这样的类别吗:
category_label = [[0,0,2], [1]]categories = [["approval request", "approval request", "Laptop working"], ["bw table"]]
其中
0 = approval request 2 = laptop working 1 = bw table
基本上,上述情况意味着没有标记的训练数据或目标标签。
回答:
这在Scikit-Learn和NLTK中都是可以实现的。
您列出的特征:
0 = approval request2 = laptop working1 = bw table
并不是聚类算法自然会选择的特征,值得提醒您注意避免用启发式方法干扰您的统计学习算法。我建议您先尝试一些聚类和分类,然后考虑半监督学习方法,通过这种方法您可以标记您的聚类并传播这些标签。