如何在没有目标标签的情况下对文本进行分类？

我想知道是否有办法使用Python和Sklearn机器学习库，根据文本中的词语将文本数据分类到不同的组别/类别中？

例如：

text = [["request approval for access", "request approval to enter premises", "Laptop not working"], ["completed bw table loading"]]

那么我能得到这样的类别吗：

category_label = [[0,0,2], [1]]categories = [["approval request", "approval request", "Laptop working"], ["bw table"]]

其中

  0 = approval request  2 = laptop working  1 = bw table

基本上，上述情况意味着没有标记的训练数据或目标标签。

回答：

这在Scikit-Learn和NLTK中都是可以实现的。

您列出的特征：

0 = approval request2 = laptop working1 = bw table

并不是聚类算法自然会选择的特征，值得提醒您注意避免用启发式方法干扰您的统计学习算法。我建议您先尝试一些聚类和分类，然后考虑半监督学习方法，通过这种方法您可以标记您的聚类并传播这些标签。

学技术