如何为神经网络表示DNA序列？

我想用Python构建一个神经网络来对DNA序列中的剪接连接点进行分类。目前，我的数据只是字符串形式（例如，“GTAACTGC”。）

我在考虑如何以一种适合神经网络处理的方式对其进行编码。我的第一个想法是将每个字母赋值为一个整数，但这感觉有点简单。另一个想法是为每个位置设置四个二进制指示符，分别对应A、T、G或C。但我也不确定这种方法的效果如何。

解决这个问题的最佳方法是什么？之前我只处理过数值数据，从未处理过像DNA序列这样的字符串数据。

编辑：目前，我将只考虑映射。对于阅读此文的任何人，请查看这篇论文；它确实给了我一些指导意见。

回答：

为什么不学习每个碱基的数值表示？

这在神经机器翻译中是一个常见问题，我们希望将具有意义的“词”编码为（简单地）数字。核心思想是，不同的词不应简单地用数字表示，而应使用学习的密集向量来表示。寻找这种向量表示的过程称为嵌入。

在这种方法中，更密切相关的碱基可能会在n维空间中具有更接近的向量表示（其中n是向量的大小）。这是一个简单的概念，但第一次理解可能会有些困难。你选择的嵌入大小（一个超参数）可能应该较小，因为你只嵌入四个参数中的一个（尝试大小为2-5）。

作为大小为4的嵌入映射的一些示例（数值在本例中不相关）：

G -> [1.0, 0.2, 0.1, 0.2]A -> [0.2, 0.5, 0.7, 0.1]T -> [0.1, 0.2, 1.0, 0.5]C -> [0.4, 0.4, 0.5, 0.8]

生成和优化嵌入的确切技术本身就是一个话题；希望这个概念对你有用。

替代方案

如果你想避免使用嵌入（因为你的“词汇”仅限于4个），你可以为每个碱基赋予标量值。如果这样做，你应该将你的映射归一化在-1和1之间。

学技术