如何在一个分类器中同时训练不同类型的特征?例如字符串、数值、分类、时间戳等

我是机器学习领域的新手。我已经完成了Udacity的“机器学习入门”课程。因此,我知道如何使用sklearn和Python运行基本的分类器。但课程中教授的所有分类器都是基于单一数据类型进行训练的。

我有一个问题,我希望将代码提交分类为“干净”或“有bug”。我的特征集包含字符串数据(如人的姓名)、分类数据(如“干净”与“有bug”)、数值数据(如提交次数)和时间戳数据(如提交时间)。我如何基于这三种特征同时训练一个分类器?假设我计划使用朴素贝叶斯分类器和sklearn。请帮助我!

我正在尝试实现这篇论文。任何帮助都将非常感激。


回答:

许多机器学习分类器,如逻辑回归、随机森林、决策树和支持向量机(SVM),都能很好地处理连续和分类特征。我认为你有两条路可以走。第一条是数据预处理。例如,将所有字符串/分类数据(如人的姓名)转换为整数,或者你可以使用集成学习

集成学习是指你将不同的分类器(每个分类器处理一种异构特征)结合起来,例如使用多数投票的方式,以便它们在分类时达成共识。希望这对你有帮助。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注