使用Weka训练机器学习分类器

我正在进行一个关于识别推文中情感的项目。我有一个大约五十万条推文的数据集。我使用的是weka.classifiers.functions.SMO作为机器学习分类器。我总共有10577个特征词,这意味着每条推文的特征向量将有10577个属性,另外还有一个属性用于指定CLASS。

我在Windows环境下工作。我的训练是在16GB的系统上进行的。但我仍然遇到了“outofmemoryerror java heap space”错误。我的训练集大小大约是8MB。我已经尝试增加了weka runconfiguration.ini中的堆大小以及java中的-Xmx选项。有什么方法可以训练大数据集的SMO分类器,或者是否可以增量地训练SMO分类器?


回答:

我在使用Weka时也遇到了类似的问题,我猜标准的JVM无法处理如此巨大的空间需求。可能有其他方法,但当我搜索时,我看到有人推荐使用Oracle JRockit作为JVM。当我安装它后,我的 проблема立刻解决了。或许你可以尝试一下。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注