使用 AI 技术逆向工程文件格式

这是对以下问题的扩展:用于辅助逆向工程二进制文件格式的工具

是否存在任何公开可用的工具,它们使用聚类和/或数据挖掘技术来逆向工程文件格式?

例如,使用该工具,你可以拥有一系列具有相同格式的文件,而该工具的输出将是通用结构?


回答:

如果拥有一个真正高效的二进制编码格式(ZIP文件就是一个例子),那么每个比特位的信息含量都很高。本质上,它看起来就像一个完美的随机数。

在没有额外知识的情况下,你无法从中推断出任何信息。

如果二进制编码效率不高,理论上,你还有一线希望看到结构。但即便如此,这听起来仍然非常困难;你甚至都无法开始猜测字段的边界在哪里,又该如何入手呢?

AI 机器学习领域的人会告诉你,除非你已经“几乎”了解它,否则你什么也学不到。他们通常通过用至少你可以推理的问题标记来编码问题来取得成功。

我认为如果你不提供更多信息,就无法做到这一点。你对文件格式了解多少?字段大小总是小于 N 位?只编码 ASCII 字符串还是反之亦然?

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注