我尝试在 nltk.SklearnClassifier
封装器中创建一个 sklearn
分类器,并遇到了一个问题:如果我们不是一次性训练分类器(这是所有教程中的做法),而是一次训练一条数据,这样做会不会破坏分类器之前的训练?我希望我已经把问题说清楚了,但如果没有,这里有一些代码可以解释。
from nltk.classify.scikitlearn import SklearnClassifierfrom sklearn.naive_bayes import MultinomialNBclass classifier(object): def __init__(self,c): self.c = c def train(self,featuresets): self.c.train(featuresets) def classify(self,feature): self.c.classify(feature)clf = classifier(SklearnClassifier(MultinomialNB()))while True: #一些耗时的操作 clf.train(featuresets) #又一些耗时的操作 clf.classify(feature)
我希望你现在明白我想说什么了。所以,当 clf
在循环中被训练时,之前的所有训练是否变得无用?如果确实变得无用,还有其他什么方法可以实现同样的效果?提前谢谢你。
回答:
一切都取决于你使用的分类器。并不是所有的 sci-kit 分类器都能够多次学习。
如果你想多次训练它,在初始化分类器对象时设置 warm_start = True。
MultinomialNB 没有多次训练的可能性。例如,http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html 可以做到这一点。
尽管如此,首先要考虑的是你是否真的需要多次训练。增量学习通常在你的数据超出可用内存时使用。
warm_start : bool, default: False当设置为 True 时,复用上一次 fit 调用的解决方案作为初始化,否则,只需清除之前的解决方案。对于 liblinear 求解器无效。