构建一个识别字符串的模型

我有一个这样的字符串

ODQ1OTc3MzY0MDcyNDk3MTUy.YKoz0Q.wlST3vVZ3IN8nTtVX1tz8Vvq5O8

字符串的第一部分是一个以base64格式表示的随机18位数字,第二部分是一个以base64格式表示的Unix时间戳,最后一部分是一个HMAC签名。

我想构建一个模型来识别这样的字符串。

我该怎么做呢?


回答:

虽然我没有深入思考这个问题,但这是我首先想到的解决方案。

你肯定不需要使用机器学习来解决这个问题。事实上,机器学习不仅对这样的问题效率低下,而且根据不同的方法,可能会更糟。

在这里,通过理解问题,可以实现一个精确的解决方案。

人们通常使用所谓的正则表达式或RegExp来匹配具有特定结构的字符串。

正则表达式允许你匹配不同复杂度的字符串模式。

举一个简单的Python示例:

现在,这个方法的一个问题是,你如何知道你的字符串的开始和结束位置。大多数情况下,有特定的锚点,特别是在编程生成的字符串中。例如,如果我们知道在每个你想要匹配的字符串之前有一个词Token: ,你可以在你的RegExp模式中包含它r"Token: (.+)\.(.+)\.(.+)"

避免错误匹配的其他方法是更清晰地定义模式要求。现在我们只是匹配一个模式,其中有任意数量的字符和两个.将它们分成三个序列。如果你知道你使用的是哪种base64实现,你可以将可能的字符集从.(即任意字符)限制到你使用的base64实现的字母表[abcdefgh1234]。在这个例子中,它将是abcdefgh1234,所以模式可以这样改进r"([abcdefgh1234]+).([abcdefgh1234]+).(.+)"。同样的方法也适用于HMAC代码。

此外,你可以指定每个子字符串的允许长度。例如,你说你有18个随机数字。这可能意味着每个数字编码为1字节,这将转换为18*8 = 144位,在base64中,将转换为24个标记(每个标记编码一个六位数,因此6位信息)。同样可以对时间戳进行处理,假设是一个32位的时间戳,这可能需要6个base64标记(代表36位,因为你不能将32位分成六位数)。

有了这些信息,你可以进一步优化模式

r"([abcdefgh1234]{24})\.([abcdefgh1234]{6})\.(.+)"`

此外,同样的方法也适用于HMAC代码。

我建议你阅读一些关于RegExp的内容,我猜这是最简单的解决方案,当然比任何形式的机器学习更合适。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注