我一直在尝试对来自两位作者的电子邮件进行分类。我已经成功地使用监督学习、文本的TFIDF向量化、PCA和SelectPercentile特征选择来实现了这一目标。我使用的是scikit-learn包来完成这些工作的。
现在我想尝试使用无监督学习的KMeans算法将这些电子邮件聚类成两个组。我已经创建了一个数据集,其中每个数据点在Python列表中是一行。由于我是无监督学习的新手,所以我想问一下我是否可以应用与监督学习中相同的降维工具(TFIDF、PCA和SelectPercentile)。如果不能,那么它们的对应工具是什么?我使用scikit-learn来编写代码。
我在StackOverflow上查看了相关内容,但没有得到满意的答案。我现在真的卡住了。
请帮帮我!
回答:
以下是在无监督学习情况下可以应用的降维技术:
- PCA:主成分分析
- 精确PCA
- 增量PCA
- 近似PCA
- 核PCA
- 稀疏PCA和MiniBatch稀疏PCA
- 随机投影
- 高斯随机投影
- 稀疏随机投影
- 特征聚合
- 标准化缩放器
以上提到的方法可以在无监督学习中用于大数据的降维。你可以在这里阅读更多详细信息。