我有一个词,我想用Python和NLTK来判断文本是否与这个词相关,这是可能的吗?
例如,我有一个词叫“磷”。我想知道特定的文本文件是否与这个词相关?
我不能使用NLTK中的词袋方法,因为我只有一个词,没有训练数据。
有什么建议吗?
提前感谢。
回答:
没有语料库是不行的。
这样想:作为一个有智慧的生物,你能判断“光”和“部屋に入った時電気をつけました”是否相关吗?如果不询问懂日语的人或工具(假设你不懂日语;如果你懂,可以试试“svjetlo”和“Kad je ušao u sobu, upalio je lampu”)。如果你做不到,你怎么期望计算机能做到呢?
另一个实验 – 作为一个有智慧的生物,你能告诉我一个算法,让一个不会英语的人明白“light”和“When he entered the room, he turned on the lamp”之间的关系吗?同样,不行。
简而言之:除非你显著限制“相关”的含义(例如,改为“包含”),否则你需要训练数据。