我正在使用Keras进行AI和机器学习的实验。我已经完成了几个项目,现在我想复制一个数据集。我应该朝哪个方向学习呢?我应该查找哪些内容来开始学习这种模型?我只需要一位专家指引我正确的方向。
为了澄清;我所说的复制数据集是指我想拿一系列具有明显可辨识模式的数字,然后让AI生成类似的新数据。
回答:
生成与当前数据集相似的新数据有几种方法,但目前最突出的方法是使用生成对抗网络(GAN)。这种方法通过让两个模型相互对抗来实现。生成模型尝试生成数据,而判别模型则尝试区分真实数据和生成数据。关于如何做到这一点,有很多教程,尽管大多数可能是基于图像数据的。
如果你也想生成标签,可以创建一个条件GAN。
生成数据的另一种常见方法是变分自编码器(VAE),但生成的数据质量往往不如GAN生成的那么高。不过,我不知道这是否适用于非图像数据。