在机器学习模型中使用文本情感作为特征?

我正在研究我的机器学习模型可以使用哪些特征,基于我所拥有的数据。我的数据包含大量的文本数据,所以我在思考如何从中提取有价值的特征。与我之前的想法相反,这通常涉及到使用词袋模型(Bag-of-words)或者类似于word2vec的表示方法:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)

由于我对这个主题的理解有限,我不明白为什么我不能先分析文本以获得数值。例如:textBlob.sentiment =https://textblob.readthedocs.io/en/dev/,谷歌云自然语言处理 =https://cloud.google.com/natural-language/

这样做有什么问题吗,或者我可以将这些数值作为我的机器学习模型的特征吗?

提前感谢所有帮助!


回答:

当然,你可以使用情感分析将文本输入转换为单一数字,然后将这个数字作为机器学习模型的特征。这种方法没有问题。

问题在于你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为-1到1之间的一个数字,这个数字代表文本的情感是积极的还是消极的。例如,你可能想获取顾客对餐馆评论的情感信息来衡量他们的满意度。在这种情况下,使用情感分析来预处理文本数据是可以的。

但是,再次强调,情感分析只能提供文本是积极还是消极的基本信息。你可能想对文本数据进行聚类分析,而情感信息在这方面并不有用,因为它不提供关于文本相似性的任何信息。因此,在这些任务中,会使用其他方法如word2vec或词袋模型来表示文本数据。因为这些算法提供了文本实例的向量表示,而不仅仅是一个单一的数字。

总之,方法的选择取决于你需要从数据中提取什么样的信息来完成你的具体任务。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注