如何使用Pattern对西班牙语单词进行词形还原?

我想对一组评论进行词形还原。据我所知,nltk无法对英语以外的语言进行词形还原。经过一番研究,我发现了pattern,它可以对多种语言的单词进行词形还原。我该如何使用pattern对文本进行词形还原呢?

这是我的测试语料库:

# -- coding: utf-8 --from pattern.es import lemma #unresolved referenceopinions = ["Este es un post de juguetes de aprendizaje \automático. En realidad, contiene no mucho \material interesante.","Las bases de datos de imágenes proporcionan \capacidades de almacenamiento.","La mayoría de las bases de datos de imágenes \imágenes seguras de forma permanente.","Los datos de imagen de tienda bases de datos.","Imagina almacenar bases de datos de bases de \datos de imágenes. Almacenar datos. Bases de datos \de imágenes de datos de la tienda."]print lemma(opiniones)

输出:

  File "/Users/user/PycharmProjects/Pruebas/Lemmatizacion.py", line 18, in <module>    print lemma(opiniones)  File "/usr/local/lib/python2.7/site-packages/pattern/text/__init__.py", line 1591, in lemma    if verb.lower() in self._inverse:AttributeError: 'list' object has no attribute 'lower'

我该如何对opinions进行词形还原?


回答:

你可以使用pattern的parsetree函数,并将lemmata参数设置为True来对文本进行词形还原。

from pattern.es import parsetreeparsetree("buena", lemmata=True)# Returns [Sentence('buena/JJ/B-ADJP/O/bueno')]

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注