我对机器学习算法完全是个新手,我想就数据集的分类问题请教一个快速的问题。
目前的训练数据包含两列:消息和标识符。
消息 – 从日志中提取的典型消息,包含时间戳和一些文本标识符 – 应根据消息内容对其进行分类。
训练数据是通过从工具中提取特定类别并相应地标记来准备的。
现在测试数据只包含消息,我试图据此获得相应的类别。
在这种情况下,哪种方法最有帮助?是监督学习还是无监督学习?
我有一个训练好的数据集,我试图预测测试数据的类别。
提前感谢,@人名
回答:
如果你的标签是精确的,你可以使用人工神经网络、支持向量机等进行分类。但如果标签不精确,你需要根据数据中的特征对数据进行聚类。K-means或最近邻可以作为聚类的起点。