我有一个特征数据框(DF),看起来像这样:
文本 | 数字 |
---|---|
文本1 | 0 |
文本2 | 1 |
… | … |
其中数字
列是二进制的,而文本
列每行包含约2000个字符。目标数据框包含三个类别。
def get_numeric_data(x): return [x.number.values]def get_text_data(x): return [record for record in x.text.values]transfomer_numeric = FunctionTransformer(get_numeric_data)transformer_text = FunctionTransformer(get_text_data)
当尝试拟合时,使用下面的代码,我得到了错误File "C:\fakepath\scipy\sparse\construct.py", line 588, in bmat raise ValueError(msg) ValueError: blocks[0,:] has incompatible row dimensions. Got blocks[0,1].shape[0] == 98, expected 1.
。我尝试以不同的方式构建get_text_data
和get_numerical_data
函数,但都没有帮助。
combined_clf = Pipeline([ ('features', FeatureUnion([ ('numeric_features', Pipeline([ ('selector', transfomer_numeric) ])), ('text_features', Pipeline([ ('selector', transformer_text), ('vect', vect), ('tfidf', tfidf), ('scaler', scl), ])) ])), ('clf', SGDClassifier(random_state=42, max_iter=int(10 ** 6 / len(X_train)), shuffle=True))])gs_clf = GridSearchCV(combined_clf, parameters, cv=5,n_jobs=-1)gs_clf.fit(X_train, y_train)
回答:
主要问题在于你返回数值的方式。x.number.values
会返回形状为(n_samples,)
的数组,而FeatureUnion
对象会尝试将其与文本特征的转换结果结合。在你的案例中,转换后的文本特征的维度是(n_samples, 98)
,这无法与数值特征的向量结合。
一个简单的解决方法是将向量重塑为维度为(n_samples, 1)
的二维数组,如下所示:
def get_numeric_data(x): return x.number.values.reshape(-1, 1)
请注意,我删除了表达式周围的括号,因为它们不必要地将结果包装在一个列表中。
虽然上述方法可以让你的代码运行,但你的代码中仍有一些不甚高效的地方,可以进行改进。
首先是表达式[record for record in x.text.values]
是多余的,因为x.text.values
已经足够。两者的唯一区别在于前者是一个list
对象,而后者是一个通常更受欢迎的numpyndarray
对象。
其次,正如Ben Reiniger在他的评论中已经指出的,FeatureUnion
旨在对相同的数据进行多种转换,并将结果合并成一个对象。然而,看起来你只是想单独转换文本特征和数值特征。在这种情况下,ColumnTransformer
提供了一种更简单且更规范的方式:
combined_clf = Pipeline([ ('transformer', ColumnTransformer([ ('vectorizer', Pipeline([ ('vect', vect), ('tfidf', tfidf), ('scaler', scl) ]), 'text') ], remainder='passthrough')), ('clf', SGDClassifier(random_state=42, max_iter=int(10 ** 6 / len(X_train)), shuffle=True))])
如上所述,ColumnTransformer
只选择文本列并将其传递给转换管道,最终会将其与直接通过的数值列合并。请注意,定义你自己的选择器变得多余,因为ColumnTransformer
通过指定每个转换器要转换的列来处理这一点。请参阅文档以获取更多信息。