在文档分类领域,如果我有一个包含1000个实例的数据集,但这些实例(文档)的内容较少;还有另一个数据集只有200个实例,但每个实例的内容更丰富。如果不考虑IDF,训练时实例的数量真的重要吗?分类算法是否会考虑到这一点?
谢谢。@某人
回答:
你可以将这个问题视为一个通用的机器学习问题。帮助你理解训练数据规模重要性的最简单问题是曲线拟合。
分类器或拟合模型的不确定性和偏差是样本大小的函数。小样本是一个众所周知的问题,我们通常通过收集更多的训练样本来避免这个问题。这是因为非线性分类器的不确定性估计是通过模型的线性近似来估计的。这种估计只有在大样本可用时才准确,这是中心极限定理的主要条件。
异常值的比例也是你决定训练样本大小时应考虑的一个重要因素。如果更大的样本大小意味着更高的异常值比例,那么应该限制样本大小。
文档大小实际上是特征空间大小的间接指标。例如,如果每个文档只有10个特征,那么你是在一个10维空间中尝试分离/分类文档。如果每个文档有100个特征,那么同样的操作是在一个100维空间中进行的。我想你很容易理解,在更高维度中绘制分隔文档的线条会更容易。
对于文档大小和样本大小,经验法则是尽可能提高,但实际上这是不可能的。例如,如果你估计了分类器的不确定性函数,那么你会发现样本大小超过某个阈值后,不确定性和偏差几乎不会再减少。对于某些问题,你可以通过蒙特卡洛模拟来经验性地找到这个阈值。
大多数工程师不关心估计不确定性,这往往导致他们实施的方法表现不佳。对于玩具问题这没问题,但在现实世界的问题中,考虑估计和计算的不确定性对大多数系统至关重要。我希望这在某种程度上回答了你的问题。