如何让spaCy不生成-PRON-词形?

我在使用spaCy来对大量推文进行词形还原。然而,当我对像“我”这样的词进行词形还原时,会生成标记-PRON-。我如何避免这种情况?


回答:

-PRON- 是spaCy中代词的默认词形(参见文档):

关于spaCy的自定义代词词形

与动词和普通名词不同,代词没有明确的基础形式。“我”的词形应该为“我”,还是我们也应该标准化人称,给出“它”——或者可能是“他”?spaCy的解决方案是引入一个新符号-PRON-,作为所有人称代词的词形使用。

如果你不希望这样,你可以简单地用其他东西替换它,例如相关标记的词形(见下面的代码片段)。但请注意,这可能会对后续处理产生意想不到的后果。spaCy使用字符串和整数两种表示形式来表示标记属性,因此你可能需要更改这两者(如果可能的话),或者为了可追溯性保留原始的整数值。

if token.lemma_ == '-PRON-':    token.lemma_ = token.orth_ # 更改字符串表示    token.lemma = token.orth # 更改整数表示(我没有测试这部分)

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注