我正在使用sklearn.pipeline.Pipeline
来链接特征提取器和分类器。是否有办法将多个特征选择类(例如来自sklearn.feature_selection.text
的类)并行组合并合并它们的输出?
我现在的代码如下所示:
pipeline = Pipeline([ ('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', SGDClassifier())])
结果如下:
vect -> tfidf -> clf
我想指定一个如下所示的管道:
vect1 -> tfidf1 \ -> clfvect2 -> tfidf2 /
回答:
这最近在scikit-learn的主分支中以FeatureUnion
的名字实现了:
http://scikit-learn.org/dev/modules/pipeline.html#feature-union