NLP, 忽略无关词汇

我开发了一个从文本中提取护照号码的简单工具(例如,输入 – ‘one hundred thirty five thirty five zero zero’,输出 – 1353500)

但是,如何过滤掉像’ok’、’mhm’这样的无关词汇呢?

例如,人类可能会说’ok it is 1353500’,而机器人可能会从’ok’、’it’、’is’中提取一些毫无意义的数字,这是不可取的。问题是如何忽略这些非数字词汇?


回答:

这些基本上是停用词。要删除它们,你需要下载nltk包,其中包含了所有英语停用词

from nltk.corpus import stopwordsw = stopwords.words('english')#假设data是一个包含你句子的字符串for word in w:   if word in data:       data.replace(word,'')

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注