在机器学习模型中使用文本情感作为特征?

我正在研究我的机器学习模型可以使用哪些特征,基于我所拥有的数据。我的数据包含大量的文本数据,所以我在思考如何从中提取有价值的特征。与我之前的想法相反,这通常涉及到使用词袋模型(Bag-of-words)或者类似于word2vec的表示方法:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)

由于我对这个主题的理解有限,我不明白为什么我不能先分析文本以获得数值。例如:textBlob.sentiment =https://textblob.readthedocs.io/en/dev/,谷歌云自然语言处理 =https://cloud.google.com/natural-language/

这样做有什么问题吗,或者我可以将这些数值作为我的机器学习模型的特征吗?

提前感谢所有帮助!


回答:

当然,你可以使用情感分析将文本输入转换为单一数字,然后将这个数字作为机器学习模型的特征。这种方法没有问题。

问题在于你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为-1到1之间的一个数字,这个数字代表文本的情感是积极的还是消极的。例如,你可能想获取顾客对餐馆评论的情感信息来衡量他们的满意度。在这种情况下,使用情感分析来预处理文本数据是可以的。

但是,再次强调,情感分析只能提供文本是积极还是消极的基本信息。你可能想对文本数据进行聚类分析,而情感信息在这方面并不有用,因为它不提供关于文本相似性的任何信息。因此,在这些任务中,会使用其他方法如word2vec或词袋模型来表示文本数据。因为这些算法提供了文本实例的向量表示,而不仅仅是一个单一的数字。

总之,方法的选择取决于你需要从数据中提取什么样的信息来完成你的具体任务。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注