我正在构建一个用于生成歌曲的神经网络。我有一个文件,包含了一首歌的所有音符,每一行对应一个音符:
0 0 0.05511 0.787400 0 0.07874 0.503930 0 0.71653 10 0 0.50393 0.. .. .. ..
我想将前10个音符输入到神经网络中,并希望它输出下一个音符,这个音符需要在前10个音符之后播放。
然而,我不知道如何构建第一层和最后一层(Dense, LSTM…),因为我有:
- 输入维度为10×4(4列和10行)。
- 输出维度为1×4(1行和4列)。
这是我代码的开始部分(无法正确读取我的数据):
model = Sequential()model.add(Dense(10, activation='relu',input_shape = (10,4)))model.add(Dense(4, activation='relu'))
感谢您的帮助。
回答:
这是一个序列预测问题,最好用循环神经网络或长短期记忆网络来解决。
以下是一个好的起点:
from keras.models import Sequentialfrom keras.layers import LSTM, Dense, Dropoutimport numpy as np#假设所有4列对应一首歌data_dim = 4#因此一首歌将是一个10x4的二维数组 number_of_notes_per_song = 10nsongs_train = 100#可调参数batch_size = 32epochs = 5#我生成了虚拟数据,但你有自己的数据...x_train = np.random.random((nsongs_train, number_of_notes_per_song, data_dim)).reshape(nsongs_train*number_of_notes_per_song,data_dim)#这是一个监督学习问题,但你的数据集没有标签..#我们可以使用每首歌的最后一个音符作为训练LSTM时的标签 X = x_train[np.mod(np.arange(x_train.shape[0]),number_of_notes_per_song)!=0].reshape(nsongs_train,number_of_notes_per_song-1,data_dim)y = x_train[::number_of_notes_per_song].reshape(nsongs_train,data_dim) model = Sequential()model.add(LSTM(32, input_shape=(number_of_notes_per_song-1, data_dim),return_sequences=True))model.add(Dropout(0.2))model.add(LSTM(64))model.add(Dropout(0.2))model.add(Dense(data_dim, activation='softmax'))model.compile(loss='categorical_crossentropy', optimizer='adam')model.fit(X,y,batch_size=batch_size, epochs=epochs)#预测未见数据,期望输入的张量形状为(None, number_of_notes_per_song-1, data_dim)model.predict(...)
请注意,这是一个监督机器学习问题,但你的数据集没有标签。我们可以通过使用每首歌的最后一个音符作为标签来解决这个问题。这实际上将序列长度减少了一个音符。
另外请注意,如果你的歌曲有数百个音符,最好将它们以子序列的形式输入到LSTM中,直到歌曲结束前不重置状态。这里有一个使用Keras进行有状态训练的示例。
如果需要预测整首歌(而不仅仅是下一个字符),你需要在所有LSTM
层中设置return_sequences=True
,并在输出时使用TimeDistributed
密集层。