Pybrain文本分类:数据和输入

我有三组句子(单词数量不等),但我不知道如何从文本中提取特征,使得输入维度保持不变。

例如,我尝试过使用词袋模型,但由于单词数量的变化导致输入维度的变化,最终会出现错误。

如果你能展示一种准备字符串数据以供神经网络使用的方案,我将非常感激。

谢谢你!

(在Windows 7上使用Python 2.7)


回答:

如何格式化输入

这是从wikipedia.org提取的内容

这里有两个简单的文本文档:

John喜欢看电影。Mary也喜欢。


John也喜欢看足球比赛。

基于这两个文本文档,构建了一个词典如下:

{    "John": 1,    "likes": 2,    "to": 3,    "watch": 4,    "movies": 5,    "also": 6,    "football": 7,    "games": 8,    "Mary": 9,    "too": 10}

其中包含10个不同的单词。使用词典的索引,每个文档可以表示为一个10个条目的向量:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1][1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

无论文档的长度如何,你的输入将保持相同的大小。希望这对你有帮助。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注