我试图根据4个特征将对象分类/聚类为两个类别:健康和生病。
需要知道的两件事:我知道每个对象的标签/类别 + 我只有40个对象(总共:训练集 + 测试集!)
在这种情况下,我应该选择聚类还是分类?
回答:
聚类与分类不是选择方法,而是选择问题。当前的问题是什么?你有标记的数据,并希望得到一个能够标记更多数据的模型——这按定义就是分类。至于使用哪种具体的分类方法,这是一个全新的、研究驱动的课题,而不仅仅是一个简单的编程问题。特别是,许多分类器会尝试为数据拟合某种生成模型(从而即使没有标签也能了解结构),但最终——标签是存在的,应该被使用。*