Home IT技术用于从图像二进制数据中提取特征的工具

用于从图像二进制数据中提取特征的工具

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我正在进行一个项目，其中涉及到一些已被篡改（模糊处理，即图像数据已被更改）的图像文件。这些文件在不同平台上渲染时，会导致平台发出警告/崩溃/通过报告。

我试图通过无监督机器学习构建一个屏障，以帮助我识别/分类这些图像是否具有恶意。我拥有这些文件的二进制数据，但我不知道从中可以识别出哪些特征集/模式，因为这些图像在视觉上可能是任何东西。（我需要能够从二进制数据中找到特征集）

我需要一些关于可以用于从这些二进制数据中自动提取特征的工具/方法的建议；这些特征集可以与无监督学习算法（如Kohenen的SOM等）一起使用。

我是新手，任何帮助都将非常受欢迎！

回答：

我认为这是不可行的。

问题在于这些是旧的漏洞，对它们进行训练并不能告诉你太多关于未来漏洞的信息。因为这是一个极度不平衡的问题：没有两个漏洞使用相同的东西。所以即使你生成多种类型的文件，最终你可能仅为每个漏洞得到一个相关的训练案例。

尽管如此，你需要做的是从文件元数据中提取特征。这才是漏洞所在，而不是在实际图像中。因此，解析文件本身就是问题所在的领域，你的检测工具可能会因此变得容易受到此类漏洞的攻击。

由于数据可能是压缩的，简单的二进制特征方法也行不通。

cross-validation feature-extraction file-format fuzzing machine-learning

发表回复取消回复