Doc2Vec通用情感分析数据集

我正在尝试构建一个doc2vec模型，使用gensim和sklearn来对短句进行情感分析，比如评论、推文、评价等。

然后我将这些数据集分为三类：积极、消极和中性。

接下来，我在上述数据上训练了gensim的doc2vec模型，以便为分类神经网络获取输入向量。

我使用sklearn的LinearRegression模型来预测我的测试数据，这些数据来自上述三个数据集的各10%。

遗憾的是，结果并不如我预期的好。大多数教程似乎只关注一个特定的任务，比如“仅分类亚马逊评论”或“仅推特情感”，我找不到任何更通用的方法。

有人可以分享一下对此的看法吗？

回答：

你预期的效果如何，实际达到的效果又如何？

如果不同领域的情感标志不同，合并这三个数据集可能不会提高整体情感检测能力。（也许，“积极”的推文在措辞上与产品评论或电影评论非常不同。几到几十个词的推文往往与数百个词的评论非常不同。）你是否尝试过分别使用每个数据集，以确保合并是有帮助的？

你的表现是否与其他在线报告使用大致相同的数据处理流程（Doc2Vec + LinearRegression）在相同或相似数据集上的结果一致，还是有很大不同？这将是判断你是否做错了什么，或者只是期望过高的线索。

例如，doc2vec-IMDB.ipynb笔记本随gensim一起打包，试图复制原始“段落向量”论文中的一个实验，在IMDB数据集上进行情感检测。（我不确定这是否是你使用的数据集。）你的结果是否与该笔记本达到的结果大致相同？

在没有看到你的代码以及你的语料处理和参数选择的细节之前，可能会有各种各样的问题。许多在线示例有荒谬的选择。但也许你的期望只是不切实际的。

学技术