我正在进行一个基于情感分析的产品分析学校项目。我已经寻找训练数据集有一段时间了,到目前为止我找到的是电影评论的数据集。我的问题是,我可以使用这个数据集来训练分类器吗?即,它会影响分类准确性吗?如果可以,这里有人知道哪里可以获取免费的产品评论数据集吗?
回答:
我假设你使用的是像词袋模型这样的文本模型。
根据我的实验,当从一个领域转换到另一个领域时,通常不会得到好的结果(即使训练数据集和测试集都是产品,但属于不同的类别!)。
逻辑上想想,一个快速加热的烤箱通常表示一个好产品。对于笔记本电脑也是如此吗?
几年前我尝试过,我使用了亚马逊评论作为训练集和测试我的算法。
这些评论简短且信息丰富,足以达到约80%的准确率。’真实’结果是星级系统,其中1-2星为’负面’,3星为’中性’,4-5星为’正面’。
我使用了一个来自esuli.it的Perl脚本来爬取亚马逊的评论。