如何在NLTK Python中检测文本的不确定性？

我刚开始学习NLTK和机器学习，我的目标是为句子提供不确定性评级。例如，像This is likely caused by a..这样的句子可能会获得6分的确定性评分，而There is definitely something wrong with me可能会获得10分，I think it could possibly happen则可能得3分。

无论评分系统如何，“确定”和“不确定”的分类也足以满足我的需求。

我没有找到任何现成的相关研究。我应该如何着手进行？我确实有一些未经训练的文本数据。

回答：

据我所知，现有的自然语言处理工具包没有这样的功能。

你需要训练你自己的模型，为此你需要训练数据。如果你有一组数据，其中每句话都带有不确定性标签，那么你就可以在这些数据上训练一个文本分类模型。

如果你没有带标签的数据，有一个CoNLL 2010共享任务是关于检测不确定性/对冲的，你可以获取那个任务的数据集，并在其上训练一个简单的文本分类器，然后将训练好的模型应用到你自己的数据集上。假设你的数据性质与他们的数据没有太大差异，这样应该可以奏效。

对于文本分类，你可以简单地使用scikit-learn库，它非常直观易用。

你可能还会发现以下参考资料有用：

Rubin, Victoria et al. “文本中的确定性识别：分类模型和手动标记结果.” 计算文本中的态度和情感：理论与应用。2006. 61-76.
Medlock, Ben, and Ted Briscoe. “科学文献中对冲分类的弱监督学习.” ACL. 第2007卷。2007.

学技术

如何在NLTK Python中检测文本的不确定性？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复