使用 AI 技术逆向工程文件格式

这是对以下问题的扩展:用于辅助逆向工程二进制文件格式的工具

是否存在任何公开可用的工具,它们使用聚类和/或数据挖掘技术来逆向工程文件格式?

例如,使用该工具,你可以拥有一系列具有相同格式的文件,而该工具的输出将是通用结构?


回答:

如果拥有一个真正高效的二进制编码格式(ZIP文件就是一个例子),那么每个比特位的信息含量都很高。本质上,它看起来就像一个完美的随机数。

在没有额外知识的情况下,你无法从中推断出任何信息。

如果二进制编码效率不高,理论上,你还有一线希望看到结构。但即便如此,这听起来仍然非常困难;你甚至都无法开始猜测字段的边界在哪里,又该如何入手呢?

AI 机器学习领域的人会告诉你,除非你已经“几乎”了解它,否则你什么也学不到。他们通常通过用至少你可以推理的问题标记来编码问题来取得成功。

我认为如果你不提供更多信息,就无法做到这一点。你对文件格式了解多少?字段大小总是小于 N 位?只编码 ASCII 字符串还是反之亦然?

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注