我正在研究我的机器学习模型可以使用哪些特征,基于我所拥有的数据。我的数据包含大量的文本数据,所以我在思考如何从中提取有价值的特征。与我之前的想法相反,这通常涉及到使用词袋模型(Bag-of-words)或者类似于word2vec的表示方法:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)
由于我对这个主题的理解有限,我不明白为什么我不能先分析文本以获得数值。例如:textBlob.sentiment =https://textblob.readthedocs.io/en/dev/,谷歌云自然语言处理 =https://cloud.google.com/natural-language/
这样做有什么问题吗,或者我可以将这些数值作为我的机器学习模型的特征吗?
提前感谢所有帮助!
回答:
当然,你可以使用情感分析将文本输入转换为单一数字,然后将这个数字作为机器学习模型的特征。这种方法没有问题。
问题在于你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为-1到1之间的一个数字,这个数字代表文本的情感是积极的还是消极的。例如,你可能想获取顾客对餐馆评论的情感信息来衡量他们的满意度。在这种情况下,使用情感分析来预处理文本数据是可以的。
但是,再次强调,情感分析只能提供文本是积极还是消极的基本信息。你可能想对文本数据进行聚类分析,而情感信息在这方面并不有用,因为它不提供关于文本相似性的任何信息。因此,在这些任务中,会使用其他方法如word2vec或词袋模型来表示文本数据。因为这些算法提供了文本实例的向量表示,而不仅仅是一个单一的数字。
总之,方法的选择取决于你需要从数据中提取什么样的信息来完成你的具体任务。