如何让spaCy不生成-PRON-词形?

我在使用spaCy来对大量推文进行词形还原。然而,当我对像“我”这样的词进行词形还原时,会生成标记-PRON-。我如何避免这种情况?


回答:

-PRON- 是spaCy中代词的默认词形(参见文档):

关于spaCy的自定义代词词形

与动词和普通名词不同,代词没有明确的基础形式。“我”的词形应该为“我”,还是我们也应该标准化人称,给出“它”——或者可能是“他”?spaCy的解决方案是引入一个新符号-PRON-,作为所有人称代词的词形使用。

如果你不希望这样,你可以简单地用其他东西替换它,例如相关标记的词形(见下面的代码片段)。但请注意,这可能会对后续处理产生意想不到的后果。spaCy使用字符串和整数两种表示形式来表示标记属性,因此你可能需要更改这两者(如果可能的话),或者为了可追溯性保留原始的整数值。

if token.lemma_ == '-PRON-':    token.lemma_ = token.orth_ # 更改字符串表示    token.lemma = token.orth # 更改整数表示(我没有测试这部分)

Related Posts

在使用k近邻算法时,有没有办法获取被使用的“邻居”?

我想找到一种方法来确定在我的knn算法中实际使用了哪些…

Theano在Google Colab上无法启用GPU支持

我在尝试使用Theano库训练一个模型。由于我的电脑内…

准确性评分似乎有误

这里是代码: from sklearn.metrics…

Keras Functional API: “错误检查输入时:期望input_1具有4个维度,但得到形状为(X, Y)的数组”

我在尝试使用Keras的fit_generator来训…

如何使用sklearn.datasets.make_classification在指定范围内生成合成数据?

我想为分类问题创建合成数据。我使用了sklearn.d…

如何处理预测时不在训练集中的标签

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注