这是对以下问题的扩展:用于辅助逆向工程二进制文件格式的工具
是否存在任何公开可用的工具,它们使用聚类和/或数据挖掘技术来逆向工程文件格式?
例如,使用该工具,你可以拥有一系列具有相同格式的文件,而该工具的输出将是通用结构?
回答:
如果拥有一个真正高效的二进制编码格式(ZIP文件就是一个例子),那么每个比特位的信息含量都很高。本质上,它看起来就像一个完美的随机数。
在没有额外知识的情况下,你无法从中推断出任何信息。
如果二进制编码效率不高,理论上,你还有一线希望看到结构。但即便如此,这听起来仍然非常困难;你甚至都无法开始猜测字段的边界在哪里,又该如何入手呢?
AI 机器学习领域的人会告诉你,除非你已经“几乎”了解它,否则你什么也学不到。他们通常通过用至少你可以推理的问题标记来编码问题来取得成功。
我认为如果你不提供更多信息,就无法做到这一点。你对文件格式了解多少?字段大小总是小于 N 位?只编码 ASCII 字符串还是反之亦然?