LIBSVM适合处理多个类别和大量样本吗?

我正在构建一个文本分类器,它应该能够给出文档属于某些类别的概率(例如,80% 是小说,30% 是市场营销等)。

我认为Libsvm可以通过“predict”方法实现这一点,但问题是我需要测试大约20个类别。此外,我有几百份文档可以用于训练。

问题在于训练文件的大小达到了1 GB到2 GB,这使得Libsvc变得非常慢。

这个问题如何解决?我应该改用Liblinear,还是有更好的选择?


回答:

关于这个具体问题,我不得不使用Liblinear,因为LibSVC一直运行不完。

但如果有人想知道最终结果如何:

  1. 我从PHP/C++切换到Python,这大大简化了操作,并且没有遇到任何内存问题。
  2. 我的情况属于“多标签分类”。这篇文章指引了我正确的方向,而magpie项目帮助我完成了任务。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注