使用Apache Mahout进行数据分类

我正在尝试解决一个简单的分类问题。

问题:
我有一组文本,需要根据内容对它们进行分类。

使用Mahout的解决方案:
我了解到需要将输入转换为序列文件来生成模型。是的,我已经完成了这一步。现在,我应该如何对测试数据进行分类呢?20News的例子只是测试正确性。但是,我想要进行实际的分类。
我不确定是否需要编写代码,还是使用一些现有的类来对测试集进行分类?


回答:

我不想推销自己的作品,但我们在《Mahout in Action》中专门有一整节讲解分类。包括理论、代码示例、案例研究实践,甚至还有一个完整的服务器农场实现。

你可以在http://www.manning.com/owen/获取预发布版本

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注