Home IT技术谷歌的Audioset中用于音频特征提取的算法是什么？

谷歌的Audioset中用于音频特征提取的算法是什么？

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我刚刚开始使用谷歌的Audioset。尽管数据集非常庞大，但我发现关于音频特征提取的信息非常模糊。网站上提到

以1Hz的频率提取的128维音频特征。这些音频特征是使用受到VGG启发的声学模型提取的，该模型由Hershey等人描述，并在YouTube-8M的初步版本上训练。特征经过了主成分分析（PCA）并量化，以与YouTube-8M提供的音频特征兼容。它们以TensorFlow Record文件的形式存储。

在论文中，作者讨论了使用mel频谱图对960毫秒的音频片段进行处理，得到96×64的表示。然而，如何转换为Audioset中使用的1×128格式的表示对我来说并不清楚。有人知道更多关于这方面的内容吗？

回答：

他们使用96*64的数据作为修改后的VGG网络的输入。VGG的最后一层是FC-128，因此其输出将是1*128，这就是原因所在。

VGG的架构可以在这里找到：https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

audio-analysis machine-learning sound-recognition

发表回复取消回复