我刚刚开始使用谷歌的Audioset。尽管数据集非常庞大,但我发现关于音频特征提取的信息非常模糊。网站上提到
以1Hz的频率提取的128维音频特征。这些音频特征是使用受到VGG启发的声学模型提取的,该模型由Hershey等人描述,并在YouTube-8M的初步版本上训练。特征经过了主成分分析(PCA)并量化,以与YouTube-8M提供的音频特征兼容。它们以TensorFlow Record文件的形式存储。
在论文中,作者讨论了使用mel频谱图对960毫秒的音频片段进行处理,得到96×64的表示。然而,如何转换为Audioset中使用的1×128格式的表示对我来说并不清楚。有人知道更多关于这方面的内容吗?
回答:
他们使用96*64
的数据作为修改后的VGG
网络的输入。VGG
的最后一层是FC-128
,因此其输出将是1*128
,这就是原因所在。
VGG
的架构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py