我有三组句子(单词数量不等),但我不知道如何从文本中提取特征,使得输入维度保持不变。
例如,我尝试过使用词袋模型,但由于单词数量的变化导致输入维度的变化,最终会出现错误。
如果你能展示一种准备字符串数据以供神经网络使用的方案,我将非常感激。
谢谢你!
(在Windows 7上使用Python 2.7)
回答:
如何格式化输入
这是从wikipedia.org提取的内容
这里有两个简单的文本文档:
John喜欢看电影。Mary也喜欢。
John也喜欢看足球比赛。
基于这两个文本文档,构建了一个词典如下:
{ "John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}
其中包含10个不同的单词。使用词典的索引,每个文档可以表示为一个10个条目的向量:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1][1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
无论文档的长度如何,你的输入将保持相同的大小。希望这对你有帮助。