我很好奇是否有研究将无监督学习和有监督学习结合起来的随机森林算法,使得单一算法能够在多个不同数据集中发现模式并进行处理。我已经用尽各种方法在网上搜索相关研究,但一无所获。有人能指引我正确的方向吗?
注意:我已经在数据科学论坛上问过这个问题,但那个论坛基本已经死掉了,所以我来这里问问看。
回答:
(也请阅读评论,并将内容纳入我的回答中)
从我字里行间的理解来看,你似乎是想在迁移学习的环境中使用深度网络。然而,这不会基于决策树。http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf
你的问题包含了许多元素:
1.) 一般来说,机器学习算法并不在意数据集的来源。因此,你可以向学习算法输入20个不同的数据集,它会使用所有这些数据集。然而,数据应该具有相同的基本概念(除了在下文提到的迁移学习情况)。这意味着:如果你将猫狗数据与账单数据结合,这将不起作用或使算法处理变得更加困难。至少所有输入特征需要相同(存在例外),例如,将图像与文本结合是困难的。
2.) 标记/未标记:两个重要术语:数据集是一组具有固定维数的数据点。数据点i可能被描述为{Xi1,….Xin},其中每个Xi可能是一个像素。标签Yi来自另一个领域,例如,猫和狗
3.) 无监督学习 没有标签的数据。(我有种直觉这不是你想要的。)
4.) 半监督学习:基本思想是你将有标签的数据与无标签的数据结合。你有一组标记为猫和狗的图像{Xi1,..,Xin,Yi},以及另一组包含猫狗但没有标签的图像{Xj1,..,Xjn}。算法可以利用这些信息构建更好的分类器,因为未标记的数据提供了图像一般外观的信息。
3.) 迁移学习(我认为这最接近你想要的)。基本思想是你提供一组猫和狗的数据集并学习一个分类器。之后,你想用猫狗仓鼠的图像来训练分类器。训练不需要从头开始,而是可以利用猫狗分类器更快地收敛
4.) 特征生成 / 特征构建 基本思想是算法学习像“眼睛”这样的特征。这些特征在下一步用于学习分类器。我主要在深度学习的背景下了解到这一点。算法在第一步学习像边缘这样的概念,并构建越来越复杂的特征,如猫脸,它可以描述像“骑在大象上的人”这样的东西。这与迁移学习结合起来可能是你想要的。然而,深度学习基于神经网络,除了少数例外情况。
5.) 异常检测 你提供一组猫狗作为已知图像。当你提供猫狗仓鼠分类器时。分类器会告诉你它从未见过像仓鼠这样的东西。
6.) 主动学习 基本思想是你不事先为所有示例(数据点)提供标签,而是算法要求你标记某些数据点。这样你需要标记的数据就少得多。