Home IT技术可扩展或在线离核多标签分类器

可扩展或在线离核多标签分类器

IT技术 xiaolong · 2025年4月7日 · 0 Comment

在过去的2-3周里，我一直在为这个问题绞尽脑汁。我有一个多标签（不是多类别）问题，每个样本可以属于多个标签。

我有大约450万份文本文档作为训练数据，大约100万份作为测试数据。标签大约有3.5万个。

我使用的是scikit-learn。之前我使用TfidfVectorizer进行特征提取，但它完全无法扩展，现在我使用HashVectorizer，情况有所改善，但在文档数量如此之多的情况下，它的扩展性仍然有限。

vect = HashingVectorizer(strip_accents='ascii', analyzer='word', stop_words='english', n_features=(2 ** 10))

SKlearn提供了一个OneVsRestClassifier，我可以将任何估算器输入其中。对于多标签问题，我发现只有LinearSVC和SGDClassifier能够正常工作。根据我的基准测试，SGD在内存和时间上都优于LinearSVC。所以，我有类似这样的代码

clf = OneVsRestClassifier(SGDClassifier(loss='log', penalty='l2', n_jobs=-1), n_jobs=-1)

但这存在一些严重的问题：

OneVsRest没有partial_fit方法，这使得离核学习变得不可能。有没有替代方案？
HashingVectorizer/Tfidf都只能在单核上运行，并且没有n_jobs参数。哈希文档花费的时间太长。有没有替代方案/建议？另外，n_features的值是否正确？
我在100万份文档上进行了测试。哈希过程需要15分钟，当执行clf.fit(X, y)时，我收到了MemoryError，因为OvR内部使用了LabelBinarizer，它试图分配一个维度为(y x classes)的矩阵，这几乎是不可能分配的。我应该怎么办？
有没有其他库提供可靠且可扩展的多标签算法？我知道genism和mahout，但它们都没有针对多标签情况的解决方案？

回答：

我会手动处理多标签部分。OneVsRestClassifier无论如何都将它们视为独立问题。你可以创建n_labels个分类器，然后对它们调用partial_fit。如果你只想哈希一次（我建议这样做），你就不能使用管道。至于如何加速哈希向量化，你得问@Larsmans和@ogrisel才行；）

在OneVsRestClassifier上添加partial_fit会是一个不错的补充，实际上我看不出有什么特别的问题。你也可以尝试自己实现并发送一个PR。

classification document-classification machine-learning scikit-learn text-classification

发表回复取消回复