机器学习检测随机字符串

如果之前有类似内容的帖子，我先行致歉，但我经过研究并未找到任何具体信息。

我目前正在查看http://scikit-learn.org，内容看起来很不错，但我对我的问题应该使用哪种类型感到困惑。

我想能够使用两个标签。

**可疑**  1hbn34uqrup7a13tqmr30zoyswr21cdxolg1qmqnbetqx**非可疑**cheesemixreg526animato12

我可以将上述数据输入到哪种机器学习算法中，通过监督学习来教它我认为什么是可疑的？

我倾向于使用分类，但有这么多模型可供选择，我有点迷失了方向。

回答：

在这样的机器学习问题中，第一步是考虑“特征”。你不能直接在这些字符串上使用例如线性分类器。因此，你必须提取一些描述字符串的有意义的特征。在计算机视觉中，这些特征通常是边缘、角点、SIFT特征。你基本上有两个选项：

1) 这是“经典”的机器学习方法：你手动设计一系列代表性特征，这些特征可以从你的输入数据中提取。在你的例子中，你可以从例如以下特征开始：

这将为每个字符串提供一个数字向量。现在，你可以使用scikit-learn中的任何分类器来对数据进行分类。你可以使用这个流程图来帮助选择你的算法。你应该从一个简单的模型开始，例如线性模型（例如线性SVM）。如果性能不够好，可以使用更复杂的模型（例如带核的SVM），或者重新考虑你的特征选择。

2) 这是越来越受欢迎的“现代”方法。设计特征是1）中的关键步骤，并且需要对你的数据有很好的了解。现在，通过使用深度神经网络，你可以将原始数据（字符串）输入到网络中，让网络自己学习这些“特征”。然而，这需要大量的标记训练数据和大量的处理能力（GPU）。

LSTM网络是当前自然语言处理和类似任务中的最先进技术。LSTM非常适合你的任务，因为输入可以是可变长度的。

tl;dr：要么自己设计特征并使用你选择的分类器，要么深入研究深度神经网络，让网络同时学习特征和分类。

学技术