NLTK SklearnClassifier 封装器数据

我尝试在 nltk.SklearnClassifier 封装器中创建一个 sklearn 分类器，并遇到了一个问题：如果我们不是一次性训练分类器（这是所有教程中的做法），而是一次训练一条数据，这样做会不会破坏分类器之前的训练？我希望我已经把问题说清楚了，但如果没有，这里有一些代码可以解释。

from nltk.classify.scikitlearn import SklearnClassifierfrom sklearn.naive_bayes import MultinomialNBclass classifier(object):    def __init__(self,c):        self.c = c    def train(self,featuresets):        self.c.train(featuresets)    def classify(self,feature):        self.c.classify(feature)clf = classifier(SklearnClassifier(MultinomialNB()))while True:    #一些耗时的操作    clf.train(featuresets)    #又一些耗时的操作    clf.classify(feature)

我希望你现在明白我想说什么了。所以，当 clf 在循环中被训练时，之前的所有训练是否变得无用？如果确实变得无用，还有其他什么方法可以实现同样的效果？提前谢谢你。

回答：

一切都取决于你使用的分类器。并不是所有的 sci-kit 分类器都能够多次学习。

如果你想多次训练它，在初始化分类器对象时设置 warm_start = True。

MultinomialNB 没有多次训练的可能性。例如，http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html 可以做到这一点。

尽管如此，首先要考虑的是你是否真的需要多次训练。增量学习通常在你的数据超出可用内存时使用。

warm_start : bool, default: False当设置为 True 时，复用上一次 fit 调用的解决方案作为初始化，否则，只需清除之前的解决方案。对于 liblinear 求解器无效。

学技术

NLTK SklearnClassifier 封装器数据

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复